Deutsch

Datenbereitschaft: Die Voraussetzung, die die meisten KI-Projekte überspringen

Fünf-Stufen-Blueprint der Datenbereitschaftsprüfungen vor KI-Projekten

Stellen Sie sich Priya vor. Sie leitet ein B2B-Dienstleistungsunternehmen mit 120 Mitarbeitern. Die Umsätze sind gesund. Ihr Team wächst seit vier Jahren kontinuierlich.

Vor sechs Monaten genehmigte sie einen 60.000-Dollar-Pilot: ein prädiktives Lead-Scoring-Tool, das in das CRM integriert wurde, das ihr Vertriebsteam seit 2021 nutzte. Der Anbieter war zuversichtlich. Die Demo war beeindruckend.

Nach drei Monaten wirkten die Scores zufällig. Die Vertriebsmitarbeiter hörten auf, ihnen zu vertrauen. Niemand konnte erklären, warum zwei ihrer besten Accounts niedrig priorisiert wurden, während ein Dutzend Kaltakquise-Kontakte als „heiß" eingestuft wurden. Das Support-Team des Anbieters prüfte die Einrichtung und schickte dann ein zweiseitiges Dokument über Anforderungen an die Datenvollständigkeit — das sie vor der Unterzeichnung nie gesehen hatte.

Die KI war nicht kaputt. Die Daten waren es.

Gartner berichtet, dass Unternehmen bis 2026 60 % ihrer KI-Projekte aufgeben werden — nicht wegen mangelhafter Modellqualität, fehlendem Teamskill oder unreifer Technologie, sondern weil die Daten schlicht nicht bereit waren.

Das ist die unspektakuläre Voraussetzung, die die meisten Teams überspringen, weil sie langweilig ist. Und sie ist entscheidend.

Dieser Artikel richtet sich an Priya und an jeden Gründer, Operations-Leiter oder Abteilungsverantwortlichen, der wissen möchte, ob seine Daten bereit sind, bevor er einen weiteren Euro in KI-Tools investiert.

Was Datenbereitschaft wirklich bedeutet

„Datenbereitschaft" bedeutet nicht perfekte Daten. Es bedeutet Daten, die für die spezifische KI-Fähigkeit, die Sie nutzen möchten, gut genug sind.

Genauer gesagt: Daten, die auffindbar, zugänglich, strukturiert, aktuell und freigegeben für die KI-Nutzung sind.

  • Auffindbar: Sie wissen, wo die Daten gespeichert sind, und können darauf zugreifen, ohne ein wochenlangen Projekt zu starten
  • Zugänglich: Das KI-Tool kann sie über eine API, einen Export oder einen nativen Connector lesen
  • Strukturiert: Sie verfügen über ausreichend Schema und Konsistenz, damit ein Modell Muster erlernen kann
  • Aktuell: Sie spiegeln die aktuelle Realität wider, nicht den Stand von vor zwei Jahren
  • Freigegeben: Rechts-, Sicherheits- und Compliance-Teams haben sie für die KI-Nutzung genehmigt

Die meisten Teams stellen fest, dass sie bei einer oder zwei dieser Dimensionen schwach aufgestellt sind. Das reicht in der Regel aus, um einen Pilot zu torpedieren.

Die fünf Versagensmuster

Zu wissen, was Daten nicht bereit macht, ist handlungsrelevanter als zu wissen, was sie bereit macht. Hier sind die fünf Versagensmuster, die KI-Projekte scheitern lassen, bevor das Modell überhaupt eine Chance bekommt.

Versagensmuster 1: Isolierte Daten

Ihr CRM enthält die Deal-Historie, kann aber keine Support-Tickets einsehen. Ihre Marketing-Plattform kennt jedes Asset, das ein Interessent heruntergeladen hat, aber Ihre Vertriebstools haben keinen Zugriff darauf. Ihr Finanzsystem hat drei Jahre Zahlungshistorie, aber Ihre Customer-Success-Plattform weiß nicht, welche Accounts 60 Tage überfällig sind.

Das ist das häufigste Versagensmuster in mittelständischen Unternehmen, und es ist unsichtbar, bis man versucht, etwas aufzubauen, das auf vernetzten Daten basiert. Eine Ingest-Fähigkeit kann aus einem System abrufen. Aber sobald Ihre KI das vollständige Kundenbild sehen muss — Kaufhistorie plus Support-Interaktion plus E-Mail-Engagement plus Renewal-Signale — müssen diese Systeme miteinander kommunizieren.

Das tun sie in der Regel nicht. Nicht ohne echte Integrationsarbeit, die stattfinden muss, bevor Sie das KI-Tool kaufen, nicht danach.

Versagensmuster 2: Unstrukturierte Felder ohne Schema

Ihr CRM hat ein Feld „Notizen". Genauso Ihre Support-Plattform, Ihr Projektmanagement-Tool und Ihre Tracking-Tabelle. Jeder Vertriebsmitarbeiter nutzt es anders. Manche schreiben Absätze. Manche gar nichts. Manche schreiben „angerufen, Nachricht hinterlassen" und andere „14.2.: mit J. Chen gesprochen, interessiert, braucht aber CFO-Freigabe, Budget ~40.000 Euro, Q2-Zeitplan."

Freitextfelder ohne Schema sind für KI, die Muster erlernen muss, nahezu nutzlos. Die Analyze-Fähigkeit kann Signal aus unstrukturiertem Text extrahieren, aber nur wenn genug davon vorhanden und konsistent genug ist, damit ein Modell Signal von Rauschen unterscheiden kann. Teams entdecken dieses Problem oft erst nach der Integration des Tools. Die Ausgaben des Modells fühlen sich falsch an, aber das Modell macht das Beste aus inkonsistenten Eingaben.

Versagensmuster 3: Fehlender Kontext bei Datensätzen

Ein Datensatz existiert in Ihrer Datenbank, aber es fehlen die Felder, die ihm Bedeutung verleihen.

Ihr CRM hat 8.000 Unternehmenseinträge, aber 40 % davon haben kein Branchen-Tag. Ihre Deal-Historie reicht vier Jahre zurück, aber der Gewinn-/Verlustgrund wurde erst vor 18 Monaten zu einem Pflichtfeld.

Für eine Predict-Fähigkeit, die ein Lead-Scoring-Modell aufbaut, sind diese fehlenden Felder keine Kleinigkeit. Sie sind das Trainingssignal. Wenn Sie keine Ergebnisse an Eingaben geknüpft haben, können Sie kein sinnvolles Prognosemodell trainieren. Kontext ist das Bindegewebe. Datensätze ohne ihn sind Datenpunkte ohne Bedeutung.

Versagensmuster 4: Qualitätsprobleme

Duplikate. Tippfehler. Veraltete Einträge. Ein Feld „Unternehmensname" mit sieben Schreibweisen desselben Enterprise-Accounts. Deal-Phasen, die sich nie geändert haben, weil ein Vertriebsmitarbeiter vergessen hat, sie zu aktualisieren.

Qualitätsprobleme verwirren Modelle auf eine Weise, die schwer zu diagnostizieren ist. Eine Generate-Fähigkeit, die mit inkonsistenten Referenzmaterialien gespeist wird, produziert inkonsistente Entwürfe. Ein Lead-Scoring-Modell, das auf Duplikaten trainiert wurde, übergewichtet bestimmte Merkmale, weil sie mehrfach erscheinen. Ein Anomalie-Erkennungstool, das aus veralteten Basisdaten lernt, markiert normales Verhalten als anomal. Die Ausgaben fühlen sich falsch an, aber das Problem ist nicht das Modell — sondern die Eingaben.

Versagensmuster 5: Zugriffsbeschränkte Daten

Ihre Daten existieren. Sie sind sauber genug. Sie sind für Menschen zugänglich. Aber Ihre Rechts- oder Sicherheitsabteilung hat eine Richtlinie, die verhindert, dass sie in KI-Tools eingespeist werden.

„Keine personenbezogenen Daten in ChatGPT" ist eine vernünftige Richtlinie. Aber wenn die Daten, die Ihre KI benötigt, Kundennamen, E-Mail-Adressen oder verhaltensbezogene Daten mit Personenbezug enthalten, kann diese Richtlinie den gesamten Anwendungsfall blockieren. Eine Execute-Fähigkeit, die automatisch E-Mails versendet, benötigt Kontaktinformationen. Ein Support-Triage-Tool muss Ticket-Inhalte lesen. Ein Dokumentenprüfungstool benötigt das Dokument.

Prüfen Sie vor dem Pilot, ob die Daten, die Sie in das Tool einspeisen würden, freigegeben sind — nicht nur technisch zugänglich, sondern rechtlich genehmigt und richtliniendokumentiert. Dieses Gespräch muss vor dem Pilot stattfinden, nicht danach.

Das Fünf-Fragen-Audit

Sie brauchen kein Data-Science-Team für dieses Audit. Sie brauchen 30 Minuten mit jemandem, der Ihre Systeme kennt.

Frage 1: Kann ich die Daten, die meine KI benötigen würde, heute ohne IT-Anfrage herunterladen? Wenn nicht, haben Sie eine Zugriffsabhängigkeit, die gelöst werden muss, bevor ein KI-Tool nützlich sein kann.

Frage 2: Hat jeder Datensatz die Felder, die die KI benötigt, oder sind 40 % der Felder leer? Ziehen Sie 100 zufällige Datensätze. Wenn mehr als 20–30 % der Schlüsselfelder leer oder offensichtlich falsch sind, haben Sie ein Vollständigkeitsproblem.

Frage 3: Sind die Daten aktuell genug, um die aktuelle Realität widerzuspiegeln? Lead Scoring benötigt Deal-Daten aus den letzten 12–18 Monaten. Wenn Ihre sauberen Daten zwei Jahre alt sind und sich Ihr Vertriebsprozess vor 18 Monaten geändert hat, lernt das Modell den alten Prozess.

Frage 4: Gibt es eine autoritative Quelle oder vier widersprüchliche Versionen? „Das CRM ist die Quelle der Wahrheit, aber der Vertrieb führt eine Tabelle, und die Finanzen haben andere Zahlen im ERP" ist ein Kohärenzproblem. KI kann konkurrierende Quellen nicht abgleichen. Jemand muss entscheiden, welches System Vorrang hat.

Frage 5: Hat die Rechts- oder Sicherheitsabteilung eine Richtlinie für das Einspeisen dieser Daten in KI-Tools? Fragen Sie explizit nach. In vielen mittelständischen Unternehmen ist die KI-Datenrichtlinie noch nicht geschrieben. Erstellen Sie sie vor dem Start, nicht danach.

Wenn Sie alle fünf Fragen sauber beantworten können, sind Ihre Daten bereit genug für den Start. Wenn zwei oder mehr Ihnen Kopfzerbrechen bereiten, sollten Sie dort Ihre Vorab-KI-Investitionen konzentrieren.

Die Datenbereitschaftspyramide

Stellen Sie sich Datenbereitschaft als eine Pyramide mit fünf Ebenen vor. Die meisten Teams müssen von unten aufsteigen, bevor die höheren Ebenen Wert liefern.

Ebene Name Bedeutung
Ebene 1 Basis-Hygiene Dedupliziert, keine leeren Pflichtfelder, konsistentes Schema
Ebene 2 Integriert Schlüsselsysteme verknüpft oder von einem Ort zugänglich
Ebene 3 Gelabelt Trainingssignal vorhanden: Ergebnisse an Eingaben geknüpft
Ebene 4 Governed Compliance-freigegeben für KI-Nutzung; Richtlinie dokumentiert
Ebene 5 Beobachtbar Sie wissen, wann die Datenqualität nachlässt — bevor das Modell es merkt

Die meisten mittelständischen Teams, die ein KI-Projekt starten, befinden sich auf Ebene 1 oder auf dem Weg durch Ebene 2. Das ist in Ordnung. Sie können KI-Arbeit auf Ebene 1 oder 2 beginnen. Aber Sie müssen wissen, auf welcher Ebene Sie sich befinden, denn die Fähigkeiten, die Sie einsetzen können, hängen davon ab.

Ein Team auf Ebene 1 kann Analyze-Workflows aus relativ sauberen Text- oder strukturierten Datensätzen ausführen und mit Ingest experimentieren, um Dokumente und Audio in nutzbare Form zu bringen. Es kann noch keine ernsthaften Predict-Workflows ausführen, da diese Ebene 3 (gelabelte historische Daten) erfordern.

Ein Team auf Ebene 3, das Ebene 4 noch nicht abgeschlossen hat, ist durch ein einziges Anbieter-Audit davon entfernt, seine KI-Workflows herunterfahren zu müssen. Governance ist kein Nice-to-have. Sie ist das, was Ihnen erlaubt zu skalieren, ohne alles neu aufzubauen, wenn Richtlinien aufholen.

Ebene 5 unterscheidet Teams, die KI-Wert langfristig aufrechterhalten, von Teams, deren Pilots still verfallen. Beobachtbarkeit bedeutet: Monitoring ist vorhanden, um Datenqualitätseinbrüche zu erkennen — Felder, die leer werden, Duplikate, die sich anhäufen, Aktualität, die nachlässt. Ohne sie kann ein Modell, das vor sechs Monaten funktionierte, jetzt unbrauchbare Ergebnisse liefern, und Sie merken es erst, wenn ein Vertriebsmitarbeiter einen inaktiven Account anruft.

Mindestanforderungen an Daten pro ACE-Fähigkeit

Nicht jede Fähigkeit benötigt dieselbe Datengrundlage. Hier ist das Minimum für jede der fünf:

Fähigkeit Mindestanforderung an Daten
Ingest Zugang zur Rohquelle: API, Dateiexport oder nativer Connector. Die KI muss von dort lesen können, wo die Daten gespeichert sind.
Analyze Ausreichend sauberer Text oder strukturierte Daten mit ausreichendem Volumen (typischerweise Hunderte bis niedrige Tausende von Datensätzen), damit Muster entstehen können.
Predict Historisch gelabelte Daten: Ergebnisse an Eingaben geknüpft. Für Lead Scoring benötigen Sie vergangene Deals, die als gewonnen oder verloren markiert sind. Für Churn benötigen Sie vergangene Kunden, die als abgewandert oder geblieben markiert sind. Ohne Labels gibt es nichts, worauf hin vorhergesagt werden kann.
Generate Kontextreiche Referenzmaterialien: Produktdokumentation, vergangene Beispiele von „gutem" Output, Style Guides, Unternehmenstimme. Generate ist nur so gut wie der Kontext, der ihm gegeben wird.
Execute Schreibberechtigungen für das Zielsystem sowie Audit-Trail-Fähigkeit, damit Sie nachverfolgen können, was die KI getan hat, und es bei Bedarf rückgängig machen können.

Diese Tabelle ist praktisch für die Sequenzierung. Wenn Sie saubere CRM-Daten, aber keine historischen Labels haben, beginnen Sie mit Analyze und Generate, nicht mit Predict. Bauen Sie die Labelgewohnheit auf, während Sie die risikoärmeren Fähigkeiten betreiben. Wenn Sie nach 12–18 Monaten gelabelte Ergebnisse haben, ist Predict in Reichweite.

Was tun, wenn Ihre Daten nicht bereit sind

Die meisten Teams befinden sich in dieser Situation. Hier ist, was tatsächlich funktioniert.

Beginnen Sie mit dem einen System, das bereit ist. Die meisten Unternehmen haben eine Datenquelle, die sauberer als die anderen ist. Ihr Support-Ticket-System ist möglicherweise unordentlicher als Ihr CRM, aber wenn das CRM drei Jahre saubere Deal-Historie mit Ergebnissen hat, beginnen Sie Ihre KI-Arbeit dort. Wählen Sie den Anwendungsfall, der zu Ihren stärksten Daten passt, nicht den, den Sie sich am meisten wünschen.

Führen Sie zuerst Ingest und Analyze durch. Diese sind Read-Only-Fähigkeiten, die Erkenntnisse liefern, ohne externen Zustand zu verändern. Wenn Sie sie vor Predict oder Execute ausführen, generieren Sie Wert bei niedrigeren Datenanforderungen, während Sie die Qualität für die höherstufigen Fähigkeiten verbessern.

Bauen Sie Labelgewohnheiten auf, bevor Sie ein Modell benötigen. Wenn Sie Lead Scoring in 12 Monaten möchten, machen Sie Gewinn-/Verlustgründe in Ihrem CRM jetzt zu Pflichtfeldern. Setzen Sie sie durch. Wenn Sie bereit sind zu trainieren, sind die Labels bereits vorhanden.

Erwägen Sie Anbieter-KI, die eine eigene Baseline mitbringt. Produkte wie Salesforce Einstein, HubSpots prädiktives Scoring oder Gong kommen mit vortrainierten Modellen, die bereits Signale mitbringen, bevor Sie eigene Daten hinzufügen — das reduziert die Kaltstart-Hürde für kleinere Teams.

Datenbereitschaft als Wettbewerbsvorteil

Hier ist der Teil, der nicht offensichtlich ist, wenn Sie mitten in einem frustrierenden Pilot stecken.

Die Teams, die die unspektakuläre Integrationsarbeit erledigen — ihr CRM bereinigen, auf Pflichtfeldern bestehen, ihre Systeme verknüpfen, ihre Datenrichtlinien dokumentieren — bauen einen Burggraben auf, den Modellverbesserungen nicht aushöhlen können.

Modellqualität ist eine Ware. OpenAI, Anthropic und Google wetteifern darum, Ihnen bessere Modelle zu liefern. In 18 Monaten werden die Modelle, auf die Sie über API zugreifen können, weit leistungsfähiger sein als die heutigen. Aber ein besseres Modell, das mit schmutzigen, isolierten Daten gespeist wird, produziert immer noch schmutzige Ergebnisse.

Die Unternehmen, die das KI-Rennen in den nächsten drei Jahren gewinnen, sind nicht unbedingt diejenigen, die das neueste Modell am schnellsten adoptiert haben. Es sind diejenigen, die die Datenbasis aufgebaut haben, die Modelle zum Funktionieren bringt. Saubere Daten plus ein einfaches Modell schlagen schmutzige Daten plus das neueste Modell — fast immer.

Die langweilige Arbeit, die KI-Projekte zum Erfolg führt

Das sind die unspektakulären Aufgaben, die entscheiden, ob Ihr KI-Pilot tatsächlich Wert liefert:

  • Deduplizieren Sie Ihre CRM-Kontakte und -Accounts, bevor Sie ein KI-Tool verbinden
  • Machen Sie Gewinn-/Verlustgründe zu einem Pflichtfeld in Ihren Deal-Einträgen (und füllen Sie 12 Monate rückwirkend, wenn möglich)
  • Prüfen Sie Ihre wichtigsten Freitextfelder: Füllen die Vertriebsmitarbeiter sie aus? Sind sie konsistent?
  • Kartieren Sie Ihre Datenflüsse: Was geht in jedes Schlüsselsystem ein, und was kommt heraus
  • Lassen Sie Ihre Rechts- oder Sicherheitsabteilung Ihre KI-Datennutzungsrichtlinie schreiben, bevor Sie einen Anbietervertrag unterzeichnen
  • Identifizieren Sie Ihre autoritative Quelle der Wahrheit für jeden Kerndatentyp: Kundendatensätze, Deal-Historie, Support-Tickets
  • Bauen Sie eine Monitoring-Gewohnheit auf: Wer überprüft monatlich die Datenqualität, und wonach wird gesucht?

Nichts davon ist technisch komplex. Alles davon erfordert anhaltenden organisatorischen Willen, es tatsächlich zu tun. Das ist der wahre Grund, warum die meisten Teams diese Arbeit überspringen. Sie ist langweilig, langsam und fühlt sich nicht wie „KI" an. Aber es ist die wichtigste Arbeit, die Sie in Ihrem KI-Programm leisten werden.

Was Sie als nächstes lesen sollten

Das ACE Framework baut auf der hier beschriebenen Datenbasis auf:

Langweilig schlägt brillant. Bringen Sie die Daten in Ordnung, und die KI wird Sie überraschen. Überspringen Sie es, und Sie werden sechs Monate lang rätseln, warum das Modell „kaputt" ist — obwohl es genau so funktioniert, wie es sollte.