Kesiapan Data: Prasyarat yang Paling Sering Dilewati dalam Proyek AI

Blueprint lima gerbang pemeriksaan kesiapan data sebelum proyek AI

Perkenalkan Priya. Ia mengelola perusahaan jasa B2B dengan 120 karyawan. Pendapatan stabil. Timnya terus berkembang selama empat tahun terakhir.

Enam bulan lalu, ia menyetujui pilot senilai $60.000: sebuah tool lead scoring prediktif yang terintegrasi dengan CRM yang telah digunakan tim penjualannya sejak 2021. Vendornya percaya diri. Demo-nya mengesankan.

Tiga bulan kemudian, skor-skor tersebut terasa acak. Para rep berhenti mempercayainya. Tak seorang pun bisa menjelaskan mengapa dua akun yang paling sesuai mendapat prioritas rendah, sementara selusin kontak dingin masuk sebagai "hot." Tim support vendor meninjau konfigurasi, lalu mengirimkan dokumen dua halaman tentang persyaratan kelengkapan data yang tidak pernah Priya lihat sebelum menandatangani kontrak.

AI-nya tidak rusak. Datanya yang bermasalah.

Gartner melaporkan bahwa hingga 2026, organisasi akan meninggalkan 60% proyek AI karena kurangnya data yang siap untuk AI. Bukan karena kualitas model. Bukan karena keahlian tim. Bukan karena teknologinya belum matang. Datanya tidak siap.

Inilah prasyarat yang tidak glamor dan paling sering dilewati tim karena terasa membosankan. Padahal, ini bersifat menentukan.

Artikel ini untuk Priya, dan untuk setiap founder, pemimpin operasional, atau kepala departemen yang ingin mengetahui apakah data mereka sudah siap sebelum mengeluarkan biaya lebih untuk tools AI.

Apa yang sebenarnya dimaksud dengan kesiapan data

"Kesiapan data" tidak berarti data yang sempurna. Artinya data yang cukup baik untuk kapabilitas AI spesifik yang ingin Anda gunakan.

Lebih tepatnya: data yang dapat ditemukan, dapat diakses, terstruktur, terkini, dan diizinkan untuk digunakan oleh AI.

Dapat ditemukan: Anda tahu di mana data berada dan bisa mengaksesnya tanpa proyek berminggu-minggu
Dapat diakses: tool AI bisa membacanya melalui API, ekspor, atau konektor native
Terstruktur: memiliki skema dan konsistensi yang cukup agar model bisa belajar pola
Terkini: mencerminkan realitas saat ini, bukan kondisi dua tahun lalu
Diizinkan: tim legal, keamanan, dan kepatuhan telah menyetujuinya untuk penggunaan AI

Kebanyakan tim menemukan kelemahan pada satu atau dua dimensi ini. Biasanya itu sudah cukup untuk menghancurkan sebuah pilot.

Lima mode kegagalan

Mengetahui apa yang membuat data tidak siap lebih dapat ditindaklanjuti daripada sekadar mengetahui apa yang membuatnya siap. Berikut lima mode kegagalan yang menghancurkan proyek AI sebelum model mendapat kesempatan untuk bekerja.

Mode kegagalan 1: data yang terisolasi

CRM Anda menyimpan riwayat deal, tetapi tidak bisa melihat tiket support. Platform marketing Anda tahu setiap aset yang diunduh prospek, tetapi tools penjualan tidak bisa mengaksesnya. Sistem keuangan Anda memiliki tiga tahun riwayat pembayaran, tetapi platform customer success tidak tahu akun mana yang sudah 60 hari terlambat.

Ini adalah mode kegagalan paling umum di perusahaan mid-market, dan tidak terlihat hingga Anda mencoba membangun sesuatu yang bergantung pada data yang terhubung. Kapabilitas Ingest bisa menarik dari satu sistem. Tetapi begitu AI Anda perlu melihat gambaran pelanggan secara lengkap (riwayat pembelian plus interaksi support plus keterlibatan email plus sinyal renewal), Anda membutuhkan sistem-sistem tersebut untuk saling berkomunikasi.

Biasanya tidak. Tidak tanpa pekerjaan integrasi nyata yang harus dilakukan sebelum Anda membeli tool AI, bukan setelahnya.

Mode kegagalan 2: field tidak terstruktur tanpa skema

CRM Anda punya field "Catatan". Begitu pula platform support, tool manajemen proyek, dan spreadsheet pelacakan Anda. Setiap rep menggunakannya secara berbeda. Ada yang menulis paragraf panjang. Ada yang tidak menulis apa-apa. Ada yang menulis "sudah ditelepon, tinggalkan VM" dan ada yang menulis "14/2: bicara dengan J. Chen, tertarik tapi perlu persetujuan CFO, anggaran ~$40K, waktu Q2."

Field teks bebas tanpa skema hampir tidak berguna untuk AI yang perlu belajar pola. Kapabilitas Analyze bisa mengekstrak sinyal dari teks tidak terstruktur, tetapi hanya jika volumenya cukup dan cukup konsisten bagi model untuk membedakan sinyal dari noise. Tim sering tidak menemukan masalah ini hingga setelah mengintegrasikan tool tersebut. Output model terasa salah, padahal model sedang melakukan yang terbaik dengan input yang tidak konsisten.

Mode kegagalan 3: konteks yang hilang pada rekaman

Sebuah rekaman ada di database Anda, tetapi field yang memberinya makna tidak ada.

CRM Anda memiliki 8.000 rekaman perusahaan, tetapi 40% tidak memiliki tag industri. Riwayat deal Anda mencakup empat tahun, tetapi alasan menang/kalah hanya menjadi wajib 18 bulan lalu.

Untuk kapabilitas Predict yang membangun model lead scoring, field yang hilang itu bukan ketidaknyamanan kecil. Merekalah sinyal pelatihan. Jika tidak ada hasil yang terhubung dengan input, Anda tidak bisa melatih model prediksi yang bermakna. Konteks adalah jaringan penghubung. Rekaman tanpanya hanyalah titik data tanpa makna.

Mode kegagalan 4: masalah kualitas

Duplikat. Typo. Entri usang. Field "nama perusahaan" dengan tujuh ejaan untuk akun enterprise yang sama. Tahapan deal yang tidak pernah berubah karena seorang rep lupa memperbaruinya.

Masalah kualitas membingungkan model dengan cara yang sulit didiagnosis. Kapabilitas Generate yang diberi materi referensi tidak konsisten menghasilkan draf yang tidak konsisten. Model lead scoring yang dilatih pada rekaman duplikat memberikan bobot berlebih pada karakteristik tertentu karena muncul berkali-kali. Tool deteksi anomali yang belajar dari data baseline usang menandai perilaku normal sebagai anomali. Output terasa salah, tetapi masalahnya bukan model. Melainkan inputnya.

Mode kegagalan 5: data yang dibatasi aksesnya

Data Anda ada. Cukup bersih. Dapat diakses oleh manusia. Tetapi tim legal atau keamanan Anda memiliki kebijakan yang mencegah data tersebut dimasukkan ke dalam tools AI.

"Tidak ada PII ke ChatGPT" adalah kebijakan yang masuk akal. Tetapi jika data yang dibutuhkan AI Anda berisi nama pelanggan, alamat email, atau data perilaku yang terkait dengan individu, kebijakan tersebut mungkin memblokir seluruh use case. Kapabilitas Execute yang mengirim email secara otomatis membutuhkan informasi kontak. Tool triase support perlu membaca konten tiket. Tool review dokumen membutuhkan dokumen itu sendiri.

Sebelum melakukan pilot apa pun, periksa apakah data yang akan Anda masukkan ke tool tersebut sudah disetujui. Bukan hanya dapat diakses secara teknis, tetapi sudah mendapat persetujuan legal dan terdokumentasi dalam kebijakan. Percakapan itu perlu terjadi sebelum pilot, bukan setelahnya.

Audit lima pertanyaan

Anda tidak membutuhkan tim data science untuk menjalankan audit ini. Anda butuh 30 menit bersama seseorang yang mengenal sistem Anda.

Pertanyaan 1: Bisakah saya mengunduh data yang dibutuhkan AI saya, hari ini, tanpa menghubungi IT? Jika tidak, Anda memiliki ketergantungan akses yang harus diselesaikan sebelum tool AI apa pun bisa berguna.

Pertanyaan 2: Apakah setiap rekaman memiliki field yang dibutuhkan AI, atau 40% di antaranya kosong? Ambil 100 rekaman secara acak. Jika lebih dari 20-30% field utama kosong atau jelas salah, Anda memiliki masalah kelengkapan.

Pertanyaan 3: Apakah data cukup terkini untuk mencerminkan realitas saat ini? Lead scoring membutuhkan data deal 12-18 bulan terakhir. Jika data bersih Anda sudah dua tahun lalu dan proses penjualan Anda berubah 18 bulan lalu, model belajar proses yang lama.

Pertanyaan 4: Apakah ada satu sumber yang otoritatif, atau empat versi yang bertentangan? "CRM adalah sumber kebenaran, tetapi sales menyimpan spreadsheet, dan finance memiliki angka berbeda di ERP" adalah masalah koherensi. AI tidak bisa merekonsiliasi sumber yang bersaing. Seseorang harus memutuskan sistem mana yang menang.

Pertanyaan 5: Apakah tim legal atau keamanan memiliki kebijakan untuk memasukkan data ini ke tools AI? Tanyakan secara eksplisit. Di banyak perusahaan mid-market, kebijakan data AI belum ditulis. Buat sebelum melanjutkan, bukan setelahnya.

Jika Anda bisa menjawab kelima pertanyaan itu dengan jelas, data Anda sudah cukup siap untuk memulai. Jika dua atau lebih membuat Anda ragu, di sanalah investasi pra-AI Anda seharusnya diarahkan.

Piramida kesiapan data

Bayangkan kesiapan data sebagai piramida dengan lima level. Sebagian besar tim perlu naik dari bawah sebelum level yang lebih tinggi memberikan nilai.

Level	Nama	Artinya
Level 1	Kebersihan dasar	Deduplikasi, field wajib tidak kosong, skema konsisten
Level 2	Terintegrasi	Sistem-sistem utama terhubung atau dapat diakses dari satu tempat
Level 3	Berlabel	Sinyal pelatihan ada: hasil terhubung dengan input
Level 4	Dikelola	Mendapat persetujuan kepatuhan untuk penggunaan AI; kebijakan terdokumentasi
Level 5	Dapat dipantau	Anda tahu kapan kualitas data memburuk, sebelum model mengetahuinya

Sebagian besar tim mid-market yang memulai proyek AI berada di Level 1 atau sedang dalam perjalanan menuju Level 2. Tidak apa-apa. Anda bisa memulai pekerjaan AI di Level 1 atau 2. Tetapi Anda harus tahu berada di level mana, karena kapabilitas yang bisa Anda jalankan bergantung padanya.

Tim di Level 1 bisa menjalankan workflow Analyze dari teks atau rekaman terstruktur yang cukup bersih, dan bereksperimen dengan Ingest untuk mengolah dokumen dan audio menjadi bentuk yang dapat digunakan. Mereka belum bisa menjalankan workflow Predict yang serius, karena itu memerlukan Level 3 (data historis berlabel).

Tim di Level 3 yang belum melakukan Level 4 tinggal selangkah dari harus menutup seluruh workflow AI mereka karena audit vendor. Tata kelola bukan sekadar nice-to-have. Inilah yang memungkinkan Anda berkembang tanpa harus membangun ulang saat kebijakan mengejar ketinggalan.

Level 5 adalah yang membedakan tim yang mempertahankan nilai AI dari waktu ke waktu dengan tim yang pilotnya menurun secara diam-diam. Observabilitas berarti pemantauan yang ada untuk mendeteksi penurunan kualitas data: field yang menjadi kosong, rekaman duplikat yang terakumulasi, kesegaran yang tertinggal. Tanpanya, model yang bekerja enam bulan lalu mungkin kini menghasilkan sampah, dan Anda tidak akan tahu hingga seorang rep menelepon akun yang sudah tidak aktif.

Kesiapan minimum per kapabilitas ACE

Tidak setiap kapabilitas membutuhkan fondasi data yang sama. Berikut standar minimum untuk masing-masing dari lima kapabilitas:

Kapabilitas	Persyaratan data minimum
Ingest	Akses ke sumber mentah: API, ekspor file, atau konektor native. AI perlu bisa membaca dari mana pun data berada.
Analyze	Teks atau data terstruktur yang cukup bersih, dengan volume yang memadai (biasanya ratusan hingga ribuan rekaman rendah) agar pola bisa muncul.
Predict	Data historis berlabel: hasil terhubung dengan input. Untuk lead scoring, Anda butuh deal masa lalu yang ditandai menang atau kalah. Untuk churn, Anda butuh pelanggan masa lalu yang ditandai churn atau dipertahankan. Tanpa label, tidak ada yang bisa diprediksi.
Generate	Materi referensi kaya konteks: dokumentasi produk, contoh-contoh masa lalu tentang apa yang "baik", panduan gaya, suara perusahaan. Generate hanya sebaik konteks yang diberikan kepadanya.
Execute	Izin tulis ke sistem target, ditambah kemampuan jejak audit sehingga Anda bisa melacak apa yang dilakukan AI dan membalikkannya jika diperlukan.

Tabel ini praktis untuk menentukan urutan. Jika Anda memiliki data CRM yang bersih tetapi tidak ada label historis, mulailah dengan Analyze dan Generate, bukan Predict. Bangun kebiasaan pelabelan sambil menjalankan kapabilitas yang lebih rendah risikonya. Pada saat Anda memiliki 12-18 bulan hasil berlabel, Predict sudah dalam jangkauan.

Apa yang harus dilakukan ketika data Anda belum siap

Sebagian besar tim berada dalam posisi ini. Berikut yang benar-benar berhasil.

Mulai dengan satu sistem yang sudah siap. Sebagian besar perusahaan memiliki satu sumber data yang lebih bersih dari yang lain. Sistem tiket support Anda mungkin lebih berantakan dari CRM Anda, tetapi jika CRM memiliki tiga tahun riwayat deal bersih dengan hasil, mulailah pekerjaan AI di sana. Pilih use case yang sesuai dengan data terkuat Anda, bukan use case yang paling ingin Anda lakukan.

Jalankan Ingest dan Analyze terlebih dahulu. Ini adalah kapabilitas read-only yang menghasilkan insight tanpa mengubah status eksternal. Menjalankannya sebelum Predict atau Execute memungkinkan Anda menghasilkan nilai dengan persyaratan data yang lebih rendah sambil meningkatkan kualitas untuk kapabilitas yang lebih berisiko.

Bangun kebiasaan pelabelan sebelum Anda membutuhkan model. Jika Anda menginginkan lead scoring dalam 12 bulan, mulailah mewajibkan field alasan menang/kalah di CRM Anda sekarang. Jadikan wajib. Saat Anda siap melatih, labelnya sudah ada.

Pertimbangkan AI vendor yang membawa baseline sendiri. Produk seperti Salesforce Einstein, HubSpot predictive scoring, atau Gong hadir dengan model yang sudah dilatih sebelumnya yang membawa sinyal sebelum Anda menambahkan data sendiri, yang mengurangi penalti cold-start untuk tim yang lebih kecil.

Kesiapan data sebagai keunggulan kompetitif

Inilah bagian yang tidak terlihat jelas saat Anda sedang berada di tengah pilot yang menyebalkan.

Tim yang melakukan pekerjaan integrasi yang tidak glamor (membersihkan CRM, memaksa field wajib, menghubungkan sistem, mendokumentasikan kebijakan data) sedang membangun keunggulan yang tidak bisa dihapus oleh peningkatan model.

Kualitas model adalah komoditas. OpenAI, Anthropic, dan Google berlomba-lomba memberi Anda model yang lebih baik. Dalam 18 bulan, model yang bisa Anda akses via API akan jauh lebih mampu dari yang ada sekarang. Tetapi model yang lebih baik yang diberi data kotor dan terisolasi tetap akan menghasilkan hasil yang kotor.

Perusahaan yang memenangkan perlombaan AI dalam tiga tahun ke depan belum tentu yang paling cepat mengadopsi model terbaru. Mereka yang membangun fondasi data yang membuat model bekerja. Data bersih ditambah model dasar mengalahkan data berantakan ditambah model terbaru, hampir selalu.

Pekerjaan membosankan yang membuat proyek AI berhasil

Inilah tugas-tugas yang tidak glamor yang menentukan apakah pilot AI Anda benar-benar memberikan nilai:

Deduplikasi kontak dan akun CRM Anda sebelum menghubungkan tool AI apa pun
Jadikan alasan menang/kalah sebagai field wajib di rekaman deal Anda (dan isi retrospektif 12 bulan jika bisa)
Audit field teks bebas terpenting Anda: apakah rep mengisinya? Apakah konsisten?
Petakan aliran data Anda: apa yang masuk dan keluar dari setiap sistem utama
Minta tim legal atau keamanan Anda menulis kebijakan penggunaan data AI sebelum Anda menandatangani kontrak vendor
Identifikasi sumber kebenaran otoritatif Anda untuk setiap tipe data utama: rekaman pelanggan, riwayat deal, tiket support
Bangun kebiasaan pemantauan: siapa yang meninjau kualitas data setiap bulan, dan apa yang mereka cari?

Tidak ada yang secara teknis kompleks dari semua ini. Semuanya memerlukan kemauan organisasi yang berkelanjutan untuk benar-benar melakukannya. Itulah alasan nyata mengapa sebagian besar tim melewatkan pekerjaan ini. Membosankan, lambat, dan tidak terasa seperti "AI." Tetapi ini adalah pekerjaan terpenting yang akan Anda lakukan dalam program AI Anda.

Bacaan selanjutnya

ACE Framework dibangun dari fondasi data yang dibahas di sini:

7 tipe data yang akan dikonsumsi workflow AI Anda
AI Anda tidak bodoh: mendiagnosis masalah kualitas data dalam deployment langsung
ACE Framework: stack enam layer penuh, dengan data sebagai fondasi
Ingest: kapabilitas pertama, dan yang paling langsung terkait dengan akses data
Mengapa sebagian besar framework AI gagal: apa yang terlewat oleh kebanyakan framework tentang masalah data

Membosankan mengalahkan brilian. Benahi data, dan AI akan mengejutkan Anda. Lewatkan, dan Anda akan menghabiskan enam bulan bertanya-tanya mengapa model "rusak" padahal model bekerja persis seperti yang seharusnya.

The ACE Framework Foundation