AI·23. April 2026·7 Min. Lesezeit

KI-Agenten für Handwerker: was in der Produktion funktioniert (und was nicht)

FrosthavenStudio

Der erste KI-Agent, den wir für eine Handwerker-Plattform bauten, hatte eine schicke Demo: Frage stellen, sofort perfekte Antwort, Gründer zufrieden, Investor zufrieden. Drei Wochen später in der Produktion: 40% der Fragen bekamen eine generische "als Laie würde ich einen Experten anrufen"-Antwort. Das LLM wusste nichts von der eigenen Wissensbasis, nichts von Tarifregeln, nichts von Preisen. Produktion ist etwas anderes als eine Demo.

Lektion eins: RAG auf Domänendaten ist nicht optional. Für Handwerker funktioniert der Chatbot nur, wenn er so antwortet, wie die Branche tatsächlich arbeitet, inklusive regionaler Unterschiede, Lieferantennamen und der Verrücktheit von Tarif-Interpretationen. Wir betreiben immer eine Embedding-Schicht (OpenAI text-embedding-3 oder Cohere embed v3) über der kundeneigenen Wissensbasis. Das allein hebt die Erfolgsquote von 40% auf ~80%.

Lektion zwei: Agenten mit Tools schlagen reines RAG. Reinen Text herausziehen ist die Basis. Der eigentliche Unterschied entsteht, wenn der Agent Funktionen aufrufen darf: "Verfügbarkeit im Kalender prüfen", "Angebots-Vorlage holen", "das an office@ weiterleiten". Claude Sonnet 4.7 mit Tool-Use plus `computer_use` für Außendienst-Fälle ist eine der produktivsten Kombinationen, die wir kennen.

Lektion drei: Cost-per-Interaction entscheidet über Erfolg oder Misserfolg des Projekts. Ein Handwerker stellt dem Agenten im Schnitt 12 Fragen pro Tag. 300 Handwerker × 12 × 30 Tage = 108.000 Requests pro Monat. Wenn jeder Request 4k Tokens Output auf Claude Sonnet verbraucht, zu € 3 pro Million Input / € 15 pro Million Output, dann läuft das Geld schnell weg. Wir cachen aggressiv (Prompt-Caching, 1h TTL) und leiten einfache Fragen an Haiku weiter. Faktor 3-5× günstiger als "alles auf Sonnet".

Lektion vier: Entkomme dem Demo-Syndrom mit langweiligen Metriken. Die Success Rate reicht nicht, miss auch "Antwort, ohne dass der Nutzer umformulieren muss", "Antwort, die zu einer Handlung führt", "Antwort, die nicht in einem Fallback endet". Diese drei zählen mehr als die Top-Line-Genauigkeit. Hier entscheidet sich, ob Tradevo-ähnliche Plattformen leben oder sterben.

Lektion fünf: Lass den Kunden die Wissensbasis besitzen. Jedes Mal, wenn wir für einen Kunden den "Agenten" bauten und das Wissen auf unserer Infrastruktur hielten, lief es bei der Migration umständlich ab. Seit wir die Wissensbasis plus Embeddings in das kundeneigene Supabase oder Postgres+pgvector legen, ist es übertragbar. Agent-Logik bei uns, Daten bei ihnen. Langweilig, aber entscheidend.

Wie fängst du an? Drei Wochen PoC auf einer Fragenkategorie, RAG auf einem Datensatz, ein Tool. Wenn die Conversion-Rate aus dem PoC > 70% liegt: skalieren. Wenn nicht: du brauchst eine andere Idee. Danach iterativ ausbauen mit mehr Tools und mehr Branchenwissen. Kein Big-Bang-Release.

/ Deel dit /

X / Twitter LinkedIn E-mail