Kesediaan Data: Prasyarat yang Selalu Diabaikan dalam Projek AI

Pelan lima gerbang semakan kesediaan data sebelum projek AI

Kenali Priya. Dia mengetuai syarikat perkhidmatan B2B yang mempunyai 120 orang pekerja. Hasil pendapatan sihat. Pasukannya telah berkembang secara konsisten selama empat tahun.

Enam bulan lalu, dia meluluskan perintis bernilai $60K: alat pemarkahan lead ramalan yang disepadukan dengan CRM yang digunakan oleh pasukan jualan sejak 2021. Vendor yakin. Demo memukau.

Tiga bulan kemudian, skor terasa rawak. Wakil jualan berhenti mempercayainya. Tiada siapa yang boleh menjelaskan mengapa dua akaun paling berpotensi mendapat kedudukan rendah sementara beberapa kenalan sejuk dinilai "panas." Pasukan sokongan vendor menyemak persediaan tersebut, lalu menghantar balik dokumen dua halaman tentang keperluan kelengkapan data yang tidak pernah Priya lihat sebelum menandatangani kontrak.

AI tidak rosak. Datanya yang bermasalah.

Gartner melaporkan bahawa sehingga 2026, organisasi akan meninggalkan 60% projek AI kerana kekurangan data yang bersedia untuk AI. Bukan kerana kualiti model. Bukan kerana kemahiran pasukan. Bukan kerana teknologi belum cukup matang. Data tidak bersedia.

Inilah prasyarat yang membosankan yang selalu diabaikan oleh kebanyakan pasukan kerana ia kelihatan remeh. Namun, ia adalah penentu kejayaan.

Artikel ini untuk Priya, dan untuk setiap pengasas, ketua operasi, atau ketua jabatan yang ingin mengetahui sama ada data mereka bersedia sebelum membelanjakan satu sen lagi untuk alat AI.

Apakah maksud sebenar kesediaan data

"Kesediaan data" tidak bermakna data yang sempurna. Ia bermakna data yang cukup baik untuk keupayaan AI tertentu yang ingin anda gunakan.

Lebih tepat lagi: data yang boleh dijumpai, boleh diakses, berstruktur, terkini, dan dibenarkan untuk kegunaan AI.

Boleh dijumpai: anda tahu di mana data itu berada dan boleh mendapatkannya tanpa projek berbilang minggu
Boleh diakses: alat AI boleh membacanya melalui API, eksport, atau penyambung natif
Berstruktur: ia mempunyai skema dan konsistensi yang mencukupi untuk model mempelajari corak
Terkini: ia mencerminkan realiti semasa, bukan apa yang benar dua tahun lalu
Dibenarkan: pihak perundangan, keselamatan, dan pematuhan telah meluluskannya untuk kegunaan AI

Kebanyakan pasukan mendapati mereka lemah dalam satu atau dua dimensi ini. Itu biasanya cukup untuk mematikan sebuah perintis.

Lima mod kegagalan

Mengetahui apa yang menjadikan data tidak bersedia lebih berguna daripada mengetahui apa yang menjadikannya bersedia. Berikut adalah lima mod kegagalan yang membunuh projek AI sebelum model mendapat peluang.

Mod kegagalan 1: data terpencil

CRM anda mempunyai sejarah urusan niaga, tetapi tidak dapat melihat tiket sokongan. Platform pemasaran anda mengetahui setiap aset yang dimuat turun oleh bakal pelanggan, tetapi alat jualan anda tidak dapat melihatnya. Sistem kewangan anda mempunyai tiga tahun sejarah pembayaran, tetapi platform kejayaan pelanggan anda tidak mengetahui akaun mana yang sudah 60 hari tertunggak.

Ini adalah mod kegagalan yang paling biasa dalam syarikat pasaran pertengahan, dan ia tidak kelihatan sehingga anda cuba membina sesuatu yang bergantung pada data yang bersambung. Keupayaan Ingest boleh menarik dari satu sistem. Tetapi sebaik sahaja AI anda perlu melihat gambaran pelanggan yang lengkap — sejarah pembelian ditambah interaksi sokongan ditambah penglibatan e-mel ditambah isyarat pembaharuan — anda memerlukan sistem tersebut berkomunikasi antara satu sama lain.

Biasanya mereka tidak berbuat demikian. Bukan tanpa kerja integrasi sebenar yang perlu berlaku sebelum anda membeli alat AI, bukan selepasnya.

Mod kegagalan 2: medan tidak berstruktur tanpa skema

CRM anda mempunyai medan "Nota." Begitu juga platform sokongan anda, alat pengurusan projek anda, dan hamparan penjejakan anda. Setiap wakil menggunakannya secara berbeza. Ada yang menulis perenggan. Ada yang tidak menulis apa-apa. Ada yang menulis "dihubungi, tinggalkan mesej suara" dan ada yang menulis "14/2: bercakap dengan J. Chen, berminat tetapi perlukan kelulusan CFO, belanjawan ~$40K, masa Q2."

Medan teks bebas tanpa skema hampir tidak berguna untuk AI yang perlu mempelajari corak. Keupayaan Analyze boleh mengekstrak isyarat daripada teks tidak berstruktur, tetapi hanya jika terdapat cukup teks dan cukup konsisten untuk model membezakan isyarat daripada bunyi bising. Pasukan sering tidak menemui masalah ini sehingga selepas mengintegrasikan alat. Output model terasa salah, tetapi model melakukan yang terbaik dengan input yang tidak konsisten.

Mod kegagalan 3: konteks yang hilang pada rekod

Rekod wujud dalam pangkalan data anda, tetapi ia tidak mempunyai medan yang memberi makna kepadanya.

CRM anda mempunyai 8,000 rekod syarikat, tetapi 40% tidak mempunyai teg industri. Sejarah urusan niaga anda kembali empat tahun, tetapi sebab menang/kalah hanya dijadikan mandatori 18 bulan lalu.

Untuk keupayaan Predict yang membina model pemarkahan lead, medan yang hilang itu bukan sekadar ketidakselesaan kecil. Ia adalah isyarat latihan. Jika anda tidak mempunyai hasil yang dikaitkan dengan input, anda tidak boleh melatih model ramalan yang bermakna. Konteks adalah tisu penghubung. Rekod tanpanya adalah titik data tanpa makna.

Mod kegagalan 4: masalah kualiti

Pendua. Kesilapan taip. Entri lapuk. Medan "nama syarikat" dengan tujuh ejaan untuk akaun perusahaan yang sama. Peringkat urusan niaga yang tidak pernah berubah kerana wakil terlupa untuk mengemaskinikannya.

Masalah kualiti mengelirukan model dengan cara yang sukar didiagnosis. Keupayaan Generate yang diberi bahan rujukan yang tidak konsisten menghasilkan draf yang tidak konsisten. Model pemarkahan lead yang dilatih pada rekod pendua memberi berat lebih kepada ciri tertentu kerana ia muncul berkali-kali. Alat pengesanan anomali yang belajar daripada data asas yang lapuk menandakan tingkah laku normal sebagai anomali. Output terasa salah, tetapi masalahnya bukan pada model. Ia pada input.

Mod kegagalan 5: data yang terhad akses

Data anda wujud. Ia cukup bersih. Ia boleh diakses oleh manusia. Tetapi pasukan perundangan atau keselamatan anda mempunyai polisi yang menghalang data tersebut dimasukkan ke dalam alat AI.

"Tiada maklumat pengenalan peribadi (PII) ke dalam ChatGPT" adalah polisi yang munasabah. Tetapi jika data yang diperlukan oleh AI anda mengandungi nama pelanggan, alamat e-mel, atau data tingkah laku yang dikaitkan dengan individu, polisi tersebut mungkin menyekat keseluruhan kes penggunaan. Keupayaan Execute yang menghantar e-mel secara automatik memerlukan maklumat kenalan. Alat triaj sokongan perlu membaca kandungan tiket. Alat semakan dokumen memerlukan dokumen tersebut.

Sebelum merintis apa-apa, semak sama ada data yang akan anda suapkan kepada alat itu telah diluluskan. Bukan sekadar boleh diakses secara teknikal, tetapi telah diluluskan secara undang-undang dan didokumentasikan dalam polisi. Perbualan itu perlu berlaku sebelum perintis, bukan selepasnya.

Audit lima soalan

Anda tidak memerlukan pasukan sains data untuk menjalankan audit ini. Anda hanya memerlukan 30 minit bersama seseorang yang mengenali sistem anda.

Soalan 1: Bolehkah saya memuat turun data yang diperlukan oleh AI hari ini, tanpa menghubungi IT? Jika tidak, anda mempunyai kebergantungan akses yang perlu diselesaikan sebelum mana-mana alat AI boleh berfungsi.

Soalan 2: Adakah setiap rekod mempunyai medan yang diperlukan oleh AI, atau 40% daripadanya kosong? Tarik 100 rekod secara rawak. Jika lebih daripada 20-30% medan utama kosong atau jelas salah, anda mempunyai masalah kelengkapan.

Soalan 3: Adakah data cukup terkini untuk mencerminkan realiti semasa? Pemarkahan lead memerlukan data urusan niaga 12-18 bulan terakhir. Jika data bersih anda berusia dua tahun dan proses jualan anda berubah 18 bulan lalu, model akan mempelajari proses lama.

Soalan 4: Adakah terdapat satu sumber berautoriti, atau empat versi yang bercanggah? "CRM adalah sumber kebenaran, tetapi jualan menyimpan hamparan, dan kewangan mempunyai nombor berbeza dalam ERP" adalah masalah koherensi. AI tidak boleh mendamaikan sumber yang bersaing. Seseorang perlu memutuskan sistem mana yang menang.

Soalan 5: Adakah pihak perundangan atau keselamatan mempunyai polisi untuk menyuapkan data ini kepada alat AI? Tanya secara eksplisit. Dalam banyak syarikat pasaran pertengahan, polisi data AI belum ditulis lagi. Cipta ia sebelum meneruskan, bukan selepasnya.

Jika anda boleh menjawab kelima-lima soalan dengan jelas, data anda cukup bersedia untuk bermula. Jika dua atau lebih menimbulkan keraguan, itulah tempat pelaburan pra-AI anda harus diarahkan.

Piramid kesediaan data

Fikirkan kesediaan data sebagai piramid dengan lima peringkat. Kebanyakan pasukan perlu mendaki dari bawah sebelum peringkat yang lebih tinggi memberikan nilai.

Peringkat	Nama	Maknanya
Peringkat 1	Kebersihan asas	Deduplikasi, medan wajib tidak kosong, skema konsisten
Peringkat 2	Bersepadu	Sistem utama digabungkan atau boleh diakses dari satu tempat
Peringkat 3	Berlabel	Isyarat latihan wujud: hasil dikaitkan dengan input
Peringkat 4	Dikawal selia	Diluluskan pematuhan untuk kegunaan AI; polisi didokumentasikan
Peringkat 5	Boleh diperhati	Anda mengetahui bila kualiti data terjejas, sebelum model mengesannya

Kebanyakan pasukan pasaran pertengahan yang memulakan projek AI berada di Peringkat 1 atau sebahagian Peringkat 2. Itu tidak mengapa. Anda boleh memulakan kerja AI di Peringkat 1 atau 2. Tetapi anda perlu mengetahui peringkat mana anda berada, kerana keupayaan yang boleh anda gunakan bergantung padanya.

Pasukan di Peringkat 1 boleh menjalankan aliran kerja Analyze daripada rekod teks atau berstruktur yang agak bersih, dan bereksperimen dengan Ingest untuk mendapatkan dokumen dan audio dalam bentuk yang boleh digunakan. Mereka belum boleh menjalankan aliran kerja Predict yang serius, kerana ia memerlukan Peringkat 3 (data sejarah berlabel).

Pasukan di Peringkat 3 yang belum melakukan Peringkat 4 hanya satu audit vendor jauhnya daripada terpaksa menutup aliran kerja AI mereka. Tadbir urus bukan pilihan. Ia adalah yang membolehkan anda berkembang tanpa perlu membina semula apabila polisi mengejar.

Peringkat 5 adalah yang memisahkan pasukan yang mengekalkan nilai AI dari masa ke masa daripada pasukan yang pilotnya merosot secara senyap. Kebolehperhatiaan bermakna pemantauan tersedia untuk mengesan penurunan kualiti data: medan menjadi kosong, rekod pendua terkumpul, kesegaran data ketinggalan. Tanpanya, model yang berfungsi enam bulan lalu mungkin kini menghasilkan output yang tidak berguna, dan anda tidak akan tahu sehingga seorang wakil menghubungi akaun yang sudah tidak aktif.

Kesediaan minimum yang boleh digunakan per keupayaan ACE

Tidak setiap keupayaan memerlukan asas data yang sama. Berikut adalah keperluan minimum bagi setiap lima keupayaan:

Keupayaan	Keperluan data minimum
Ingest	Akses kepada sumber mentah: API, eksport fail, atau penyambung natif. AI perlu dapat membaca dari mana sahaja data itu berada.
Analyze	Teks atau data berstruktur yang cukup bersih, dengan jumlah yang mencukupi (biasanya ratusan hingga ribuan rekod yang rendah) untuk corak muncul.
Predict	Data sejarah berlabel: hasil dikaitkan dengan input. Untuk pemarkahan lead, anda memerlukan urusan niaga lalu yang ditanda menang atau kalah. Untuk churn, anda memerlukan pelanggan lalu yang ditanda churned atau dikekalkan. Tanpa label, tiada apa yang boleh diramal.
Generate	Bahan rujukan yang kaya konteks: dokumentasi produk, contoh lepas tentang apa yang "baik," panduan gaya, suara syarikat. Generate hanya sebaik konteks yang diberikan kepadanya.
Execute	Kebenaran tulis kepada sistem sasaran, ditambah keupayaan jejak audit supaya anda boleh menjejaki apa yang dilakukan AI dan membalikkannya jika perlu.

Jadual ini praktikal untuk penjadualan. Jika anda mempunyai data CRM yang bersih tetapi tiada label sejarah, mulakan dengan Analyze dan Generate, bukan Predict. Bina tabiat pelabelan semasa anda menjalankan keupayaan berisiko lebih rendah. Menjelang anda mempunyai 12-18 bulan hasil berlabel, Predict sudah berada dalam jangkauan.

Apa yang perlu dilakukan apabila data anda belum bersedia

Kebanyakan pasukan berada dalam kedudukan ini. Berikut adalah apa yang benar-benar berkesan.

Mulakan dengan sistem yang sudah bersedia. Kebanyakan syarikat mempunyai satu sumber data yang lebih bersih daripada yang lain. Sistem tiket sokongan anda mungkin lebih berantakan daripada CRM anda, tetapi jika CRM mempunyai tiga tahun sejarah urusan niaga bersih dengan hasil, mulakan kerja AI di sana. Pilih kes penggunaan yang sesuai dengan data terkuat anda, bukan kes penggunaan yang paling anda inginkan.

Jalankan Ingest dan Analyze dahulu. Ini adalah keupayaan baca sahaja yang menghasilkan pandangan tanpa mengubah keadaan luar. Menjalankannya sebelum Predict atau Execute membolehkan anda menjana nilai dengan keperluan data yang lebih rendah sambil anda meningkatkan kualiti untuk keupayaan yang lebih berisiko tinggi.

Bina tabiat pelabelan sebelum anda memerlukan model. Jika anda mahukan pemarkahan lead dalam 12 bulan, mulakan memerlukan medan sebab menang/kalah dalam CRM anda hari ini. Jadikan ia wajib. Apabila anda bersedia untuk melatih, label sudah ada.

Pertimbangkan AI vendor yang membawa garis asas sendiri. Produk seperti Salesforce Einstein, pemarkahan ramalan HubSpot, atau Gong dilengkapi dengan model pra-latih yang membawa beberapa isyarat sebelum anda menambah data sendiri, yang mengurangkan penalti permulaan sejuk bagi pasukan yang lebih kecil.

Kesediaan data sebagai parit persaingan

Inilah bahagian yang tidak jelas apabila anda berada di tengah-tengah perintis yang mengecewakan.

Pasukan yang melakukan kerja integrasi yang tidak menarik — membersihkan CRM mereka, mendesak medan mandatori, menyambungkan sistem mereka, mendokumentasikan polisi data mereka — sedang membina parit yang tidak dapat dihapuskan oleh penambahbaikan model.

Kualiti model adalah komoditi. OpenAI, Anthropic, dan Google sedang berlumba untuk memberi anda model yang lebih baik. Dalam 18 bulan, model yang boleh anda akses melalui API akan jauh lebih berkemampuan daripada hari ini. Tetapi model yang lebih baik yang diberi data kotor dan terpencil masih akan menghasilkan keputusan yang kotor.

Syarikat yang memenangi perlumbaan AI dalam tiga tahun akan datang bukan semestinya yang paling cepat menggunakan model terkini. Mereka adalah yang membina asas data yang menjadikan model berfungsi. Data bersih ditambah model asas mengalahkan data berantakan ditambah model terkini, hampir setiap masa.

Kerja membosankan yang menjadikan projek AI berjaya

Ini adalah tugas yang tidak menarik yang menentukan sama ada perintis AI anda benar-benar memberikan nilai:

Deduplikasi kenalan dan akaun CRM anda sebelum menyambungkan mana-mana alat AI
Jadikan sebab menang/kalah sebagai medan mandatori dalam rekod urusan niaga anda (dan isikan semula 12 bulan jika anda boleh)
Audit medan teks bebas terpenting anda: adakah wakil mengisinya? Adakah ia konsisten?
Petakan aliran data anda: apa yang masuk dan keluar untuk setiap sistem utama
Dapatkan pasukan perundangan atau keselamatan anda menulis polisi penggunaan data AI sebelum anda menandatangani kontrak vendor
Kenal pasti sumber kebenaran berautoriti anda untuk setiap jenis data utama: rekod pelanggan, sejarah urusan niaga, tiket sokongan
Bina tabiat pemantauan: siapa yang menyemak kualiti data setiap bulan, dan apa yang mereka cari?

Tiada satu pun daripadanya yang kompleks secara teknikal. Semuanya memerlukan kehendak organisasi yang berterusan untuk benar-benar dilaksanakan. Itulah sebab sebenar kebanyakan pasukan melangkau kerja ini. Ia membosankan, perlahan, dan tidak terasa seperti "AI." Tetapi ia adalah kerja paling penting yang akan anda lakukan dalam program AI anda.

Apa yang perlu dibaca seterusnya

ACE Framework dibina dari asas data yang dibincangkan di sini:

7 jenis data yang akan digunakan oleh aliran kerja AI anda
AI anda bukan bodoh: mendiagnosis masalah kualiti data dalam penempatan langsung
ACE Framework: susunan enam lapisan penuh, dengan data sebagai asas
Ingest: keupayaan pertama, dan yang paling rapat dikaitkan dengan akses data
Mengapa kebanyakan rangka kerja AI gagal: apa yang kebanyakan rangka kerja terlepas tentang masalah data

Yang membosankan mengalahkan yang brillian. Betulkan data, dan AI akan mengejutkan anda. Langkau ia, dan anda akan menghabiskan enam bulan tertanya-tanya mengapa model "rosak" sedangkan model berfungsi tepat seperti yang sepatutnya.

The ACE Framework Foundation