Was ist ein Hybrid RAG System und warum ist es besser als reines Vector Search?

Ein Hybrid RAG System kombiniert zwei Abrufstrategien: SQL fur exakte Fakten (Preise, Lagerbestand, Dimensionen) und pgvector fur semantische Suche (Stilbeschreibungen, Empfehlungen, FAQ). Reines Vector Search halluziniert Preise und Lagermengen, weil Ahnlichkeit keine Genauigkeit garantiert. Hybrid RAG lost das, indem harte Fakten immer aus SQL kommen - nie aus dem Vektorindex.

Wie viel kostet ein KI Chatbot fur einen deutschen Online-Shop?

Die Betriebskosten eines Hybrid RAG Chatbots liegen ca. 90% unter dem naiven Ansatz (vollstandiger Katalog als LLM-Kontext). Pro Anfrage werden nur 1.000-1.500 Token statt Millionen verwendet. Entwicklungszeit fur einen Standard-E-Commerce-Aufbau: 3-6 Wochen. Die genauen Kosten hangen von Kataloggrose, Anfragevolumen und Modellwahl ab.

Fur welche deutschen Unternehmen eignet sich ein RAG Verkaufsassistent?

Das RAG System eignet sich fur jeden E-Commerce- oder B2B-Betrieb in Deutschland mit 100+ Produkten, Kunden die vor dem Kauf Fragen stellen, einem Katalog der sich regelmasig andert, und einem Support-Team das viel Zeit mit wiederkehrenden Produktfragen verbringt. Geeignete Branchen: Mobel- und Einrichtungshandel, Baustoffhandler, B2B-Teilelieferanten, Tapeten- und Bodenbelaghandler.

KI Chatbot fur E-Commerce: Hybrid RAG System ohne Preishalluzinationen

Das Problem

Warum reines Vector Search fur E-Commerce versagt

Der Kunde — ein polnischer Online-Shop fur Tapeten und Dekor — hatte einen 57-MB-PDF-Katalog mit 1.200+ Produkten. Der erste Gedanke: alles vektorisieren, LLM Fragen beantworten lassen. Das ist der falsche Ansatz fur E-Commerce, und zwar aus folgendem Grund.

Wenn ein Kunde fragt "Was kostet Artikel SKU-4821?" muss die Antwort exakt sein. Eine semantische Vektorsuche liefert die ahnlichsten Chunks — aber Ahnlichkeit garantiert keine Genauigkeit. Preise konnen halluzinieren. Abmessungen werden zwischen Produkten verwechselt. Lagerbestande geraten bei Varianten durcheinander.

Der originale Katalog war zudem 57 MB rohes PDF — direkt an Gemini File Search hochgeladen, traf das den Hot-Cache-Preistier (~45 $/Monat) und verursachte uber 8 Sekunden Antwortlatenz. Fur ein Chat-Widget unbrauchbar.

Die Grundursache

E-Commerce-Daten haben zwei grundlegend verschiedene Informationstypen, die unterschiedliche Abrufstrategien erfordern:

Harte Fakten — Preis, SKU, Lagerbestand, Abmessungen. Muss exakt sein. Halluzination hier = Geschaftsverlust.
Weiches Wissen — Stilbeschreibungen, Anwendungsfalle, Empfehlungen, FAQ. Kann angenahert sein. Semantischer Abruf funktioniert gut.

Eine einzige Abrufstrategie kann nicht beides bedienen. Das ist die Kernerkenntnis hinter Hybrid RAG.

Die Architektur

Hybrid RAG System: SQL + pgvector

Die Losung teilt den Katalog in zwei Schichten auf, jede fur die Anfragen geeignet, fur die sie konzipiert ist:

Nutzeranfrage
    ↓
LangGraph ReAct Agent
    ↓                        ↓
SQL-Tool (harte Fakten)   pgvector-Tool (Semantik)
Preis, SKU, Lagerbestand   Stil, FAQ, Empfehlungen
    ↓                        ↓
          → Gemini 2.5 Flash ←
                 ↓
             Antwort

Schicht 1 — SQL (Supabase PostgreSQL)

Alle deterministischen Fakten liegen in strukturierten Tabellen: Produkt-ID, Name, Preis, Lagerbestand, Abmessungen, Kategorie, Lieferant. Wenn der Agent einen Preis oder Verfugbarkeitsstatus benotigt, fuhrt er eine SQL-Abfrage uber das get_product_detail-Tool aus. Die Antwort ist immer exakt — kein Embedding-Abstand, keine Naherung.

Schicht 2 — pgvector (semantische Suche)

Produktbeschreibungen, Stilhinweise, Anwendungsfalltext und FAQ-Inhalte werden gechunkt, mit Sentence-Transformers eingebettet und in pgvector gespeichert. Wenn ein Nutzer fragt "Was eignet sich gut fur ein kleines Bad?" oder "Etwas Modernes fur ein Kinderzimmer?", fuhrt der Agent eine Ahnlichkeitssuche durch und ruft den relevantesten Stilkontext ab.

Die ETL-Pipeline

Bevor eine Anfrage korrekt beantwortet werden kann, mussen die Daten sauber sein. Ich habe eine ETL-Pipeline gebaut, die: strukturierte Felder aus dem rohen PDF extrahiert, Produktduplikate bereinigt, vor dem Massen-Embedding Contract Tests fur jede Kategorie durchfuhrt (Trockenlauf mit einem einzelnen Element zur Verifikation der Prompt-Genauigkeit) und in beide Supabase-Tabellen upserted. Das 57-MB-PDF wurde zu einer sauberen 5-MB-Wissensbasis.

Agent-Design

LangGraph ReAct — warum keine einfache Chain

Ein Single-Shot-LLM-Prompt kann echte E-Commerce-Anfragen nicht bewaltigen. "Haben Sie beige Tapeten unter 30 Euro, die fur ein feuchtes Bad geeignet sind und auf Lager sind?" erfordert mehrere Abrufschritte: nach Farbe und Preis filtern (SQL), Feuchtraumeignung prUfen (semantisch), Lagerbestand verifizieren (SQL erneut).

LangGraph ReAct Agent lost das mit einer Tool-Calling-Schleife:

search_products — Keyword + Kategorie-Filter in SQL
filter_by_attributes — Preisbereich, Lagerbestand, Abmessungen
get_product_detail — exakte Fakten fur eine bestimmte SKU
semantic_recommend — Stil- und Anwendungsfall-Ahnlichkeit
get_faq — haufige Fragen zu Montage und Pflege

Der Agent entscheidet, welche Tools er in welcher Reihenfolge aufruft, basierend auf der Nutzeranfrage. LangSmith bietet vollstandige Observability fur jeden Tool-Aufruf und Token-Verbrauch.

Kostensenkung

Wie ~90% API-Kostensenkung entsteht

Der naive Ansatz — den vollstandigen Katalog fur jede Anfrage ans LLM senden — ist teuer. 57 MB = Millionen von Token pro Anfrage zum Hot-Cache-Preis.

Der Hybrid RAG Ansatz sendet nur das Notwendige:

SQL-Abfrage liefert exakte Zeilen — 200-500 Token strukturierter Daten
pgvector liefert Top-3 relevante Chunks — 400-800 Token Kontext
Gesamtkontext pro Anfrage: ~1.000-1.500 Token statt Millionen

Gemini 2.5 Flash (nicht Pro) ubernimmt die finale Synthese — schnell, gunstig, fur diese Aufgabe prazise genug. Die architektonische Entscheidung, den Abruf aufzuteilen, bringt mehr als jede Modelloptimierung.

Ergebnis: die Kosten pro Anfrage sanken von ~0,045 $ (Hot-Cache vollstandiges PDF) auf ~0,004 $ (Hybrid RAG). In der Skalierung ist dieser Unterschied die gesamte Gewinnmarge.

Produktions-Deployment

Von Entwicklung zu Live: FastAPI + Railway

Der Agent ist uber einen FastAPI /chat-Endpunkt zuganglich. Das Frontend ist ein leichtgewichtiges Web-Chat-Widget, das auf den Produktseiten des Shops eingebettet ist. Telegram wurde nur fur internes Debugging wahrend der Entwicklung genutzt — nicht in der produktiven, kundenseitigen Schnittstelle.

Deployment erfolgt auf Railway mit Docker — Zero-Config-Autoskalierung, kein Server-Management. Die Supabase-Instanz handhabt sowohl die PostgreSQL-Daten als auch die pgvector-Extension. Keine separate Vektordatenbank-Infrastruktur notwendig.

Observability von Anfang an

LangSmith ist vor der ersten Produktionsanfrage eingebunden. Jeder Agent-Lauf wird protokolliert: welche Tools wurden aufgerufen, in welcher Reihenfolge, wie viele Token wurden verbraucht, wo hat der Agent gezogert oder wiederholt. Das ist nicht optional — ohne Observability ist das Debuggen eines fehlverhaltenden Agents in der Produktion Raterei.

Qualitassicherung

Kaufer-Szenario-Integrationstests laufen gegen den Live-Agent: 20+ Testanfragen fur Preisfragen, Lagerpruungen, Stilempfehlungen und Randfalle (abgekundete Produkte, nicht vorratige Varianten). Diese Tests laufen in CI vor jedem Deployment. Der Agent kann mit einem fehlgeschlagenen Kaufer-Szenario nicht in die Produktion gehen.

Wichtigste Erkenntnisse

Was ich anders machen wurde — und was funktioniert

Nach Datentyp aufteilen, nicht nach Abrufmethode

Der grosste Fehler bei RAG-Implementierungen ist, alles zu vektorisieren. Die richtige Frage lautet: "Benotigt dieses Datenelement exakten oder angenaherten Abruf?" Preise und SKUs brauchen Exaktheit. Beschreibungen und Empfehlungen brauchen Annaherung. Bauen Sie Ihre Abrufschicht entsprechend auf.

ETL-Qualitat bestimmt Agent-Qualitat

Garbage in, Garbage out ist das haufigste RAG-Versagen. Ich habe mehr Zeit in die ETL-Pipeline investiert — Deduplizierung, Feldnormalisierung, Contract Tests — als in den Agent selbst. Eine gut strukturierte Wissensbasis macht den Agent ohne Prompt-Engineering dramatisch genauer.

ReAct statt Chains fur mehrstufige Anfragen

Chains funktionieren fur einstufigen Abruf. Echte Nutzeranfragen sind mehrstufig. Ein ReAct Agent mit gut gestalteten Tools handhabt Gesprachskontext, Folgefragen und zusammengesetzte Anfragen, ohne jedes Szenario speziell zu codieren.

Observability ist in der Produktion nicht optional

LangSmith von Tag 1 — nicht nach dem ersten Produktionsvorfall nachgerustet. Sie mussen sehen, was der Agent tut, bevor Nutzer Ihnen sagen, dass etwas falsch lauft.

Fur deutsche Unternehmen

Wann macht ein RAG Verkaufsassistent fur Ihr Unternehmen Sinn?

Diese Architektur eignet sich fur jeden E-Commerce- oder B2B-Betrieb in Deutschland, der hat:

100+ Produkte mit strukturierten Attributen (Preis, Kategorie, Spezifikationen)
Kunden, die vor dem Kauf Fragen stellen — nicht nur browsen und klicken
Einen Katalog, der sich regelmasig andert (saisonal, Lagerupdates)
Ein Support-Team, das Zeit mit wiederkehrenden Produktfragen verbringt

Die Integration ist ein Chat-Widget auf der bestehenden Website — kein vollstandiger Neuaufbau notwendig. Der Agent verbindet sich mit Ihrer Produktdatenbank und bestehenden Infrastruktur. Entwicklungszeit fur einen Standard-E-Commerce-Aufbau: 3-6 Wochen.

Branchen, die in Deutschland gut funktionieren: Mobel- und Einrichtungshandler, Baustofflieferanten, B2B-Teile- und Komponentenhandler, Tapeten- und Bodenbelagspezialisten, Lebensmittel- und Getranke-Groshandel.

Tech Stack

Eingesetzte Technologien

Python LangGraph FastAPI Supabase pgvector Gemini 2.5 Flash Sentence-Transformers LangSmith Docker Railway pytest VS Code Claude Code

Brauchen Sie einen KI-Verkaufsassistenten fur Ihren Online-Shop?

Ich entwickle produktionsreife RAG Systeme fur E-Commerce- und B2B-Betriebe in Deutschland. SQL + Vektorsuche hybrid, null Halluzinationen, in Ihre bestehende Website integriert. Sprechen wir uber Ihren Katalog.

Kontakt aufnehmen Zur Projektubersicht

← Zuruck zu den Artikeln