The ACE Framework Foundation

Lernen Sie Jordan kennen. Sie leitet den Betrieb eines 90-köpfigen Professional-Services-Unternehmens. Ihr Geschäft floriert: gute Kundenbindung, ein wachsendes Team, kein Finanzierungsdrama.

Doch vor drei Wochen setzte sie sich dafür ein, einen KI-Assistenten einzuführen, der interne HR- und Richtlinienfragen beantworten soll. Ihr Team war begeistert. Sie verbrachte zwei Wochen mit der Konfiguration beim Anbieter. Am Montag gingen sie live.

Am Mittwoch kam einer ihrer leitenden Manager mit einem Screenshot zu ihr. Der Assistent hatte einem Mitarbeiter mitgeteilt, er habe Anspruch auf 10 Tage Urlaub. Ein anderer Mitarbeiter hatte dieselbe Frage, anders formuliert, gestellt — und 15 Tage als Antwort erhalten. Die tatsächliche Antwort war 12.

Jordans erster Instinkt: Die KI ist defekt. Sie rief den Anbieter an. Nach 45 Minuten am Telefon sagte der Support-Mitarbeiter: „Technisch gesehen tut das Modell genau das, was es tun soll."

Er hatte Recht. Und das machte es so frustrierend.

Dieser Artikel richtet sich an Jordan und an jeden Betreiber, der zugeschaut hat, wie KI selbstbewusst falsche, seltsam generische oder schwach peinliche Ausgaben produziert, und sich gefragt hat, was schiefgelaufen ist. Die kurze Antwort: Es liegt fast nie am Modell. Es liegt an den Daten. Hier ist, wie man das erkennt — und was man dagegen tut.

Warum Betreiber das Modell beschuldigen (und warum das fast immer falsch ist)

Wenn KI schlechte Ausgaben liefert, ist das Modell das, was Sie sehen können. Es ist das Produkt, für das Sie bezahlt haben. Es ist der offensichtliche Verdächtige.

Doch das ACE Framework behandelt Daten als Fundament aus einem Grund. Bevor Ingest, Analyze oder Generate funktionieren können, braucht die KI Daten, die korrekt, aktuell, vollständig und eindeutig sind. Wenn eine dieser Bedingungen scheitert, funktionieren die Fähigkeiten darüber nicht richtig — egal wie gut das zugrunde liegende Modell ist.

Stellen Sie es sich so vor: Wenn Sie einen neuen Mitarbeiter bäten, Kundenanfragen anhand eines Ordners veralteter, widersprüchlicher Richtliniendokumente zu beantworten, würde er auch schlechte Antworten geben. Der Mitarbeiter ist nicht dumm. Die Informationen, die er erhalten hat, waren falsch.

Die sechs folgenden Muster sind die häufigsten Arten, wie Datenfehler als „KI-Fehler" auftreten. Für jedes gibt es ein Symptom, das Sie beobachten würden, die eigentliche Ursache darunter und die Lösung. Die Lösung ist fast nie „Modell wechseln."

Symptom 1: „Die KI gibt generische, themenfremde Antworten"

Was Sie sehen: Sie stellen Ihrem KI-Assistenten eine spezifische Frage über Ihr Produkt, Ihren Prozess oder Ihre Richtlinie. Die Antwort fühlt sich an wie etwas von einer generischen Hilfeseite. Sie spiegelt das tatsächliche Setup Ihres Unternehmens nicht wider.

Eigentliche Ursache: Die Wissensbasis, aus der die KI schöpft, ist entweder zu spärlich oder veraltet. Ein Support-Team in einem SaaS-Unternehmen stieß darauf, nachdem es Intercom Fin als erstklassigen Responder eingesetzt hatte. Kunden, die nach einem Preis-Tier fragten, das vor sechs Monaten aktualisiert worden war, erhielten immer wieder die alte Antwort — die Antwort, die in dem SharePoint-Export dokumentiert war, der zur Einspeisung des KI-Kontexts verwendet worden war. Das Modell war nicht falsch; das Dokument war es.

Die Lösung: Prüfen Sie den Index, nicht das Modell. Finden Sie heraus, welche Dokumente im KI-Abrufpool sind. Prüfen Sie, wann sie zuletzt aktualisiert wurden. Suchen Sie nach Lücken zwischen dem, was Kunden oder Mitarbeiter tatsächlich fragen, und dem, was dokumentiert ist. Das ist ein Informationsarchitektur-Problem, kein Modellproblem.

Symptom 2: „Die KI erfindet Fakten, die nicht wahr sind"

Was Sie sehen: Die KI produziert plausibel klingende Antworten, die sich als erfunden herausstellen. Erfundene Zitate. Ausgedachte Richtlinien. Zahlen ohne Quellenangabe.

Eigentliche Ursache: Das Modell füllt Lücken. Wenn der Abrufschritt der KI kein relevantes Dokument zurückliefert, produzieren die meisten Sprachmodelle trotzdem eine kohärent klingende Antwort. Sie sind darauf ausgelegt, hilfreich zu sein. Das Problem ist, dass „hilfreich" und „korrekt" nicht dasselbe sind, wenn der Kontext leer ist.

Ein Rechtsteam in einem mittelständischen Dienstleistungsunternehmen verwendete ein KI-Dokumentenprüfungs-Tool, um relevante Präzedenzfälle für einen Vertragsstreit zu finden. Das Tool zitierte einen Fall, den die Anwälte nirgendwo finden konnten. Der Abruf hatte den tatsächlichen Präzedenzfall nicht gefunden, also extrapolierte das Modell zu etwas Plausiblem. Der prüfende Partner entdeckte es. Aber stellen Sie sich vor, er hätte es nicht.

Die Lösung: Leisten Sie zuerst die Datenbereitschafts-Arbeit und beginnen Sie mit der Abrufschicht. Die Abrufkomponente in einem RAG (Retrieval-Augmented Generation)-System ist der Ort, wo dies scheitert. Schlechtes Chunking, schlechte Indizierung und schwache semantische Suche verursachen alle Abruffehler. Das Modell generiert Fiktion, wenn der Abruf nichts Nützliches zurückliefert. Beheben Sie die Abrufschicht. Das Modell ist in Ordnung.

Symptom 3: „Lead-Scoring ist nutzlos — es ist schlechter als das Bauchgefühl"

Was Sie sehen: Ihr Team setzt ein prädiktives Lead-Scoring-Modell in Salesforce oder HubSpot ein. Nach einem Quartal Nutzung sagen die Mitarbeiter, dass die Scores nicht der Realität entsprechen. Hohe Scores schließen nicht ab. Niedrige Scores manchmal schon.

Eigentliche Ursache: Die Trainings-Labels sind verrauscht. In Verkaufsdaten ist „closed-won" oft das schmutzigste Feld im CRM. Deals werden rückdatiert. Phasenübergänge werden manuell überschrieben. Dateneingabe geschieht Wochen nach dem Fakt. Ein Operations-Leiter in einem mittelständischen B2B-Unternehmen stellte fest, dass die Opportunity-Phasen-Zeitstempel von Mitarbeitern vor Quartalsende rückwirkend bearbeitet wurden, um ihre Pipelines aufzuräumen. Das Modell, das mit diesen Labels trainiert wurde, lernte Muster, die das tatsächliche Käuferverhalten nicht widerspiegelten. Es lernte die Dateneingabemuster erschöpfter Mitarbeiter unter Quotadruck.

Die Lösung: Bereinigen Sie die Label-Daten. Konkret: Prüfen Sie die Felder, die Ihr Modell als Grundwahrheit verwendet. Beim Lead-Scoring sind das normalerweise „closed-won", „closed-lost" und Phasenübergangs-Daten. Führen Sie eine Abfrage durch: Wie viele Einträge wurden zuletzt innerhalb von 48 Stunden vor Quartalsende bearbeitet? Wie oft bewegt sich ein Deal rückwärts in der Phase? Diese Anomalien sind Rauschen in Ihren Labels. Bereinigen Sie diese zuerst. Dann trainieren Sie neu.

Symptom 4: „Die KI schreibt Texte, die sich überhaupt nicht nach uns anhören"

Was Sie sehen: Ihr Marketing-Team verwendet ein KI-Schreib-Tool (Jasper, Writer oder ähnliche), um Kampagnen zu entwerfen. Die Ausgabe ist grammatikalisch korrekt, aber tonal falsch. Sie klingt unternehmerisch. Sie klingt nicht nach Ihrer Marke.

Eigentliche Ursache: Das Modell kennt Ihre Stimme nicht, weil es niemand gesagt hat. Es fällt auf den Durchschnitt von allem zurück, womit es trainiert wurde — das ist viel generischer B2B-Inhalt. Wenn Sie Ihren Styleguide, Ihr Markensprach-Dokument, Ihre leistungsstärksten E-Mail-Texte und Ihr markenspezifisches Vokabular nicht in das System eingespeist haben, hat das Modell keine Grundlage, um Ihren Ton zu treffen.

Die Lösung: Kuratieren Sie ein Style-Korpus, keinen schwereren Prompt. „Schreiben Sie das in unserer Markenstimme" ist kein Styleguide. Sie brauchen echte Beispiele: drei bis fünf Ihrer leistungsstärksten E-Mails, einen Absatz, der den Ton in einfacher Sprache beschreibt (informell, direkt, gelegentlicher Witz, kein Fachjargon), und eine Liste von Wörtern oder Phrasen, die in Ihrem Marketing verboten sind. Speisen Sie diese als Kontext in das System ein. Sie werden den Unterschied im nächsten Entwurf sehen. Das ist ein Generate-Fähigkeits-Problem, kein Modellauswahl-Problem.

Symptom 5: „Der KI-Assistent gibt zwei verschiedene Antworten auf dieselbe Frage"

Was Sie sehen: Zwei Mitarbeiter stellen Ihrem internen KI-Assistenten dieselbe Richtlinienfrage, leicht unterschiedlich formuliert, und erhalten widersprüchliche Antworten. Genau das passierte Jordan. Die KI lügt nicht; sie trianguliert zwischen widersprüchlichen Dokumenten.

Eigentliche Ursache: Mehrere Versionen derselben Richtlinie existieren im Index, und keine ist als autoritativ gekennzeichnet. Jordans Unternehmen hatte drei HR-Richtliniendokumente: ein Original aus 2022, eine aktualisierte Version aus 2024, die jemand in einem anderen Ordner gespeichert hatte, und ein abteilungsinternes FAQ mit einem Tippfehler. Alle drei befanden sich im KI-Abrufpool. Das Modell mittelte über sie basierend darauf, welches semantisch zur Formulierung der Frage passte.

Die Lösung: Erstellen Sie eine einzige Quelle der Wahrheit und setzen Sie diese durch. Archivieren oder entfernen Sie veraltete Dokumente aus dem Abrufpool. Kennzeichnen Sie die autoritative Version explizit. Einige HR-Tools (Guru, Notion AI, Confluence AI) ermöglichen es Ihnen, Dokumentvertrauensstufen zu setzen oder bestimmte Quellen anzuheften. Nutzen Sie diese Funktion. Das Modell ist nicht verwirrt; Ihre Wissensbasis ist es.

Symptom 6: „Die KI behandelt jeden Kunden wie einen Fremden"

Was Sie sehen: Ihr KI-gestützter Kunden-Support wirkt unpersönlich. Stammkunden werden nach Informationen gefragt, die sie bereits gegeben haben. Langzeitkunden erhalten generische Onboarding-Tier-Antworten. Mitarbeiter, die KI-generierte Antworten verwenden, wirken vom Kundenverhältnis abgekoppelt.

Eigentliche Ursache: Die Kontodaten werden nicht in den KI-Kontext eingespeist. Das Modell weiß nur, was Sie ihm im Moment des Gesprächs geben. Wenn Ihr Support-Tool die Ticket-Daten nicht mit dem CRM-Kontoeintrag verknüpft (Vertragswert, Laufzeit, vergangene Probleme, zugewiesener Mitarbeiter), reagiert die KI auf ein isoliertes Ereignis ohne Erinnerung an das Verhältnis.

Ein Head of Customer Success in einem SaaS-Unternehmen beschrieb, wie er beobachtete, wie ihr KI-gestützter Support-Chat einen dreijährigen Enterprise-Kunden begrüßte, indem er erklärte, wie dieser sein Konto einrichten könne. Das Modell antwortete auf die Frage, wie geschrieben, ohne den Kontext, dass diese Person seit 2022 Kunde war und einen dedizierten CSM hatte. Die Integration zwischen ihrer Support-Plattform und ihrem CRM war nie konfiguriert worden.

Die Lösung: Das ist ein Integrationsproblem. Konkret ist es eine Ingest-Fähigkeits-Lücke: Die KI nimmt die Kundenverhältnis-Daten nicht auf, die sie braucht. Lassen Sie Ihr Team prüfen, welcher Kontext beim Gesprächsstart in die KI eingespeist wird. Typischerweise bedeutet das, Ihr Support-Tool (Zendesk, Intercom, Help Scout) zu konfigurieren, um Kontodaten aus Ihrem CRM zu Beginn jeder Sitzung einzuspeisen. Die KI kann nur mit dem arbeiten, was sie erhält.

Wie man „schlechte KI" wie ein Systemingenieur diagnostiziert

Führen Sie diese vierstufige Diagnose bei jedem KI-Ausgabeproblem durch, bevor Sie Ihren Anbieter anrufen.

Schritt 1: Sammeln Sie 10 Beispiele der schlechten Ausgabe. Arbeiten Sie nicht von einem Vorfall aus; Sie brauchen ein Muster.

Schritt 2: Fragen Sie für jedes Beispiel: „Hatte die KI genug korrekten, aktuellen, relevanten Kontext, um dies gut zu beantworten?" Schauen Sie sich an, welche Dokumente abgerufen wurden, welche Daten eingespeist wurden, was die Wissensbasis tatsächlich enthält.

Schritt 3: Wenden Sie den Menschentest an. Wenn Sie einem neuen, kompetenten Mitarbeiter genau denselben Kontext gäben, den die KI hatte — würde dieser auch falsch liegen? Wenn ja, ist es ein Datenproblem. Wenn der Mensch es offensichtlich richtig machen würde, haben Sie möglicherweise ein Modellproblem.

Schritt 4: Beheben Sie den Datenpfad, bevor Sie das Modell anpassen. Aktualisieren Sie die Wissensbasis. Bereinigen Sie die Labels. Verbessern Sie den Abruf. Verbinden Sie die Integration. Dann testen Sie erneut.

Diese Abfolge funktioniert, weil KI-Systeme — insbesondere solche, die auf den Analyze- und Generate-Fähigkeiten aufgebaut sind — grundlegend kontextabhängig sind. Sie verarbeiten, was sie empfangen. Wenn Sie das, was sie empfangen, verbessern, verbessert sich die Ausgabequalität, ohne das Modell überhaupt zu berühren.

Wann es tatsächlich die Schuld des Modells ist

Dieser Artikel ist ehrlich, also hier ist es: Manchmal ist das Modell das Problem.

Wenn Ihre KI bei einfachen Aufgaben, die nichts mit dem Kontext zu tun haben, konsequent versagt (Grundrechenarten, logische Negation, mehrstufige Anweisungen mit klaren Eingaben), ist das ein Modell-Fähigkeitsproblem.

Wenn Ihre KI domänenspezifischen Jargon, Akronyme oder nischenspezifische Terminologie, die in Ihrer Branche ständig vorkommt, nicht verarbeiten kann, benötigen Sie möglicherweise Fine-Tuning oder eine domänenspezifische Modellvariante.

Wenn Ihre KI zu langsam, zu teuer pro Abfrage ist oder korrekte, aber übermäßig ausführliche Ausgaben für Ihren Anwendungsfall produziert, ist das ein Modellauswahl-Problem. Verschiedene Modell-Tiers (GPT-4o vs. GPT-4o mini, Claude Sonnet vs. Claude Haiku) haben bedeutsam unterschiedliche Preis-Geschwindigkeit-Qualitäts-Kompromisse.

Und wenn Sie Ihre Daten bereinigt, Ihren Abruf verbessert, Ihre Labels gesäubert haben und das Problem weiterhin besteht, dann ja, probieren Sie ein anderes Modell.

Aber diese Reihenfolge ist wichtig. Die meisten Teams überspringen das Daten-Audit und gehen direkt zu Modellexperimenten. Sie verbringen Wochen damit, Prompts gegen verschiedene LLMs zu testen, während ihre Wissensbasis immer noch drei widersprüchliche Versionen desselben Richtliniendokuments enthält. Der Datenschritt ist langweilig. Er ist auch fast immer der Engpass.

Bevor Sie den Anbieter wechseln, prüfen Sie Ihre Daten

Business-KI läuft auf sieben Datentypen: Text, Strukturdaten, Bild, Audio, Video, Code und Zeitreihen. Jeder dieser Typen kann auf unterschiedliche Weise Qualitätsprobleme einführen. Veraltete Textdokumente. Verrauschte Struktur-Labels. Audiotranskriptionen mit Sprecherattributions-Fehlern. Jeder Datentyp hat seine eigenen Fehlerquellen.

Was sie gemeinsam haben: Die KI kann keine guten Daten erfinden. Sie kann nur mit dem arbeiten, was sie hat. Geben Sie ihr korrekte, aktuelle, vollständige, eindeutige Informationen, und sie wird auf dem Niveau des Modells performen. Geben Sie ihr Müll, und sie wird selbstbewusst Müll produzieren.

Jordan hat ihren HR-Bot repariert. Es dauerte zwei Stunden: Sie archivierte die alten Richtliniendokumente, kennzeichnete die Version von 2024 als autoritativ und fügte die tatsächliche Urlaubszahl zum FAQ hinzu. Die Antwort des Bots wurde konsistent und korrekt. Dasselbe Modell. Derselbe Anbieter. Andere Daten.

Bevor Sie die E-Mail an Ihren KI-Anbieter schreiben, um das Modell zu wechseln, verbringen Sie 30 Minuten mit der Frage, die der Support-Mitarbeiter Jordan stellte: Was genau ist in dem Kontext, mit dem die KI arbeitet? Die Antwort ist normalerweise aufschlussreich.

Dieser Artikel ist Teil der ACE Framework Foundation-Serie. Weiterführende Lektüre: Datenbereitschaft für KI erklärt, wie Sie beurteilen, ob Ihre Daten KI-bereit sind, bevor Sie deployen. Die 7 Datentypen kartiert die vollständige Landschaft der Unternehmensdaten und wo jeder Typ scheitert. Was ist die Analyze-Fähigkeit erklärt, wie KI Bedeutung aus Daten gewinnt — und wo dieser Prozess scheitert.

Tara Minh

Senior Operations & Growth Strategist