7 Tipe Data yang Menggerakkan Business AI

Tujuh tipe data tersusun sebagai lapisan yang menggerakkan business AI

Kenalkan Rachel. Ia mengelola firma jasa profesional dengan 65 karyawan. Bisnisnya solid, kuartal terbaik sejauh ini, sebagian besar dari referral dan klien berulang.

Tapi Head of Operations Rachel membawa sesuatu yang tidak nyaman kepadanya bulan lalu. "Kami terus membeli alat AI," katanya, "dan tidak satu pun dari mereka bekerja seperti yang dijanjikan dalam demo."

Ia menampilkan tiga pembelian terbaru: alat meeting intelligence yang menghasilkan transkrip penuh [Speaker 1] dan [Speaker 2] alih-alih nama; model lead-scoring yang menilai setiap lead masuk 7 dari 10; generator proposal yang terus mengutip layanan yang firma tersebut sudah tidak tawarkan selama dua tahun. Lima puluh ribu dolar dalam langganan tahunan. Output yang hampir nol berguna.

Rachel mengajukan pertanyaan yang jelas: apakah AI-nya buruk? Head of Operations-nya menggelengkan kepala. "Saya rasa AI-nya baik-baik saja. Saya rasa data kami yang menjadi masalah. Tapi saya tidak tahu cara membuktikannya, atau memperbaikinya."

Artikel ini untuk Rachel. Dan untuk setiap founder dan pemimpin operasional yang merasakan masalah AI mereka sebenarnya adalah masalah data, tapi belum memiliki kosakata untuk mendiagnosanya.

Mengapa tipe data penting sebelum segalanya

Dalam ACE Framework untuk business AI, Data berada di lapisan Foundation, di bawah semua lima kapabilitas (Ingest, Analyze, Predict, Generate, Execute), di bawah pola, di bawah agen. Itu bukan kerendahan hati. Itu sebab dan akibat. Setiap kapabilitas AI membutuhkan data sebagai bahan baku. Ubah kualitas, format, atau aksesibilitas data tersebut dan Anda mengubah apa yang dapat dilakukan AI.

Tujuh tipe data kanonik mewakili format berbeda di mana informasi ada di dalam sebuah bisnis. Masing-masing membutuhkan infrastruktur berbeda untuk disimpan, pipeline berbeda untuk dipindahkan, dan model AI berbeda untuk diproses. Memahaminya bukan hal akademis. Ini adalah langkah praktis pertama menuju mengetahui apakah alat AI akan benar-benar bekerja sebelum Anda menandatangani kontrak.

Berikut inventarisnya. Baca seperti referensi. Kemudian gunakan checklist di bagian akhir untuk mengaudit stack Anda sendiri.

1. Text

Text adalah tipe data yang paling berlimpah di hampir setiap bisnis, dan juga yang paling tidak terstruktur, yang membuatnya menjadi peluang terbesar AI sekaligus salah satu tantangan terbesarnya.

Di mana ia berada: Gmail, Outlook, Slack, Microsoft Teams, Notion, Confluence, catatan CRM Salesforce, tiket Zendesk, Google Docs, folder kontrak, ulasan pelanggan, respons survei.

Apa yang AI lakukan dengan baik: Deteksi intent (apakah email ini mendesak atau hanya info?). Summarization (ringkas thread 40 pesan menjadi tiga poin). Extraction (tarik nama vendor, tanggal kontrak, dan klausul pembaruan dari PDF). Klasifikasi (tandai tiket support ini sebagai "penagihan," "bug," atau "permintaan fitur"). Generation (susun tindak lanjut berdasarkan konteks percakapan penuh).

Masalah umum: Terfragmentasi di 20 alat yang tidak saling bicara. Tidak ada schema (kolom teks bebas berarti "langkah selanjutnya" terlihat berbeda di catatan setiap rep). Data sensitif bercampur dengan data operasional, menciptakan risiko kepatuhan.

Mode kegagalan yang jujur: Alat proposal Rachel mengutip layanan yang sudah tidak relevan karena corpus text-nya menyertakan deck pitch lama dan thread email tanpa pembobotan recency. AI merata-ratakan segalanya, memperlakukan deskripsi layanan 2019 sama dengan yang 2026.

2. Structured Data

Structured data adalah informasi yang diorganisasi dalam baris dan kolom dengan nama kolom yang eksplisit. Ini adalah tipe data yang paling lama digunakan AI, dan masih yang paling banyak diandalkan oleh kapabilitas predictive AI.

Di mana ia berada: Salesforce, HubSpot, Pipedrive (data CRM), Snowflake, BigQuery, Redshift (data warehouse), Excel, Google Sheets, ERP seperti NetSuite atau Sage, pengiriman formulir, respons API.

Apa yang AI lakukan dengan baik: Lead scoring (73% probabilitas penutupan berdasarkan 18 sinyal). Pipeline forecasting (closed-won Q2 antara $3,8 juta dan $4,4 juta). Anomaly detection (pengeluaran ini 340% di atas rata-rata kategori). Prediksi churn. Klasifikasi dan segmentasi dalam skala besar.

Masalah umum: Data yang kadaluarsa (CRM dengan 12.000 kontak di mana 4.000 entri memiliki jabatan yang salah dan alamat email yang tidak aktif menghasilkan skor yang tidak dapat dipercaya). Kolom yang tidak lengkap (jika 60% data closed-won tidak memiliki kolom "sumber", model tidak dapat mempelajari sumber mana yang berkonversi). Sistem yang terisolasi (Keuangan di NetSuite, Sales di Salesforce, Customer Success di Gainsight, tanpa integrasi dan tanpa penalaran lintas sistem).

3. Image

Use case bisnis untuk AI gambar melampaui e-commerce dan manufaktur. Cakupannya mulai dari invoice yang dipindai hingga foto produk hingga screenshot dashboard.

Di mana ia berada: Penyimpanan file (Google Drive, Dropbox, SharePoint), portal unggahan pelanggan, katalog e-commerce (Shopify, WooCommerce), perpustakaan aset marketing, sistem kontrol kualitas manufaktur, repositori dokumen yang dipindai.

Apa yang AI lakukan dengan baik: OCR (mengonversi teks yang dipindai menjadi karakter yang dapat dibaca mesin, kritis untuk pemrosesan invoice). Klasifikasi visual (cacat vs. tidak cacat pada lini manufaktur). Deteksi objek. Verifikasi ID untuk alur KYC. Pembuatan gambar (varian foto produk, visual marketing).

Masalah umum: Kualitas yang tidak konsisten (model yang dilatih pada foto studio yang bersih gagal pada unggahan lapangan yang buram). Eksposur IP dan hak cipta dari alat pembuatan gambar. Dokumen yang diunggah pelanggan sering mengandung PII (nomor paspor, formulir medis) yang membawa persyaratan tata kelola tersendiri meskipun datanya visual.

4. Audio

Data audio memungkinkan salah satu use case AI dengan ROI tertinggi dalam B2B: meeting intelligence. Begitu panggilan sales atau percakapan support pelanggan dapat ditranskripsikan dan dianalisis, bisnis mendapatkan tipe data yang sebelumnya tidak mereka miliki: catatan tertelusuri dari setiap interaksi lisan.

Di mana ia berada: Gong, Chorus, Fireflies (platform rekaman panggilan sales), rekaman cloud Zoom, Microsoft Teams, sistem call center, layanan voicemail-to-text.

Apa yang AI lakukan dengan baik: Transkripsi. Analisis sentimen (apakah pelanggan frustrasi di akhir panggilan?). Ekstraksi topik (keberatan apa yang muncul?). Identifikasi pembicara. Penilaian panggilan (apakah rep mengajukan cukup pertanyaan discovery?). Pemantauan kepatuhan.

Masalah umum: Persyaratan persetujuan (merekam tanpa persetujuan semua pihak adalah ilegal di beberapa negara bagian AS dan banyak yurisdiksi lain; tinjauan hukum wajib sebelum deployment). Kebisingan latar belakang dan tumpang tindih pembicara menurunkan akurasi transkripsi. Kegagalan meeting intelligence Rachel adalah kasus teks buku: model transkripsi bekerja dengan baik, tetapi langkah identifikasi pembicara tidak memiliki akses ke kalender atau daftar kontak CRM-nya. Pipeline tersebut kekurangan koneksi, bukan AI-nya.

5. Video

Video adalah audio ditambah gambar ditambah waktu, yang menjadikannya tipe data terkaya dan paling mahal untuk diproses. Memproses video membutuhkan komputasi yang jauh lebih besar dari tipe data lainnya, sehingga ambang ROI-nya lebih tinggi.

Di mana ia berada: YouTube (saluran yang dimiliki), Loom (pesan asinkron), rekaman cloud Zoom, Vimeo (konten pelatihan), sistem kamera keamanan, perpustakaan demo produk.

Apa yang AI lakukan dengan baik: Transkripsi (karena video menyertakan audio). Pemahaman scene. Ekstraksi highlight. Pembuatan chapter. Moderasi konten. Pembuatan video (avatar sintetis, klip demo).

Masalah umum: Biaya penyimpanan terakumulasi dengan cepat (satu jam video 1080p adalah 2-4 GB; 200 pertemuan yang direkam per minggu bertambah dengan cepat). Biaya pemrosesan signifikan untuk konten panjang. Persyaratan persetujuan dan data biometrik berlaku. Video menangkap wajah, yang menambahkan kewajiban berdasarkan undang-undang seperti BIPA (Illinois) dan GDPR melampaui apa yang diperlukan audio saja.

6. Code

Code adalah teks terstruktur dengan sintaks formal, tetapi ia berperilaku cukup berbeda dari bahasa alami sehingga layak mendapat kategorinya sendiri. AI yang dibangun untuk code (GitHub Copilot, Amazon Q Developer, Cursor) dirancang khusus untuk pola sintaksnya, bukan hanya dilatih pada prosa.

Di mana ia berada: GitHub, GitLab, Bitbucket (repositori), sistem CI/CD (Jenkins, GitHub Actions), agregator log (Datadog, Splunk, Sumo Logic), file infrastructure-as-code (Terraform, Ansible).

Apa yang AI lakukan dengan baik: Pembuatan kode. Code review (tandai kerentanan keamanan, pelanggaran gaya, masalah performa). Dokumentasi. Debugging dari log error. Refactoring. Pemindaian kerentanan (temukan kredensial yang di-hardcode). Analisis log.

Masalah umum: Batas context window (AI bernalar dengan baik tentang satu file, tetapi kesulitan di seluruh monorepo 500.000 baris; alat seperti Cursor menangani ini melalui strategi retrieval). Rahasia dalam repositori (kunci API dan kredensial yang di-commit ke kode secara dramatis meningkatkan attack surface ketika terhubung ke asisten AI). Intent yang hilang (AI dapat membaca apa yang dilakukan kode; ia biasanya tidak dapat membaca mengapa, dan dokumentasi serta komentar adalah jembatannya).

7. Time-Series

Data time-series adalah pengukuran apa pun yang dicatat pada interval reguler: metrik pada pukul 09.00, 09.01, 09.02. Ini adalah bahasa asli operasional, keuangan, dan pemantauan infrastruktur, dan memungkinkan forecasting serta anomaly detection yang tidak dapat digantikan oleh tipe data lain.

Di mana ia berada: Alat pemantauan (Datadog, New Relic, Prometheus), sistem sensor IoT, sistem keuangan (pendapatan harian, pengeluaran, headcount), analitik website (Google Analytics, Mixpanel, Amplitude), sistem POS (volume transaksi per jam dan hari).

Apa yang AI lakukan dengan baik: Forecasting (pendapatan bulan depan, tingkat churn kuartal berikutnya). Anomaly detection (metrik ini 3,4 standar deviasi dari baseline rolling-nya). Analisis tren (volume support tumbuh lebih cepat dari pendapatan). Pemodelan seasonality.

Masalah umum: Drift jam dan timestamp yang hilang merusak interval reguler yang diasumsikan model time-series. Mencampur granularitas pengambilan sampel (satu sistem mencatat setiap menit, yang lain setiap jam) menghasilkan baseline yang tidak dapat diandalkan. Riwayat yang tidak mencukupi adalah celah yang paling umum: model forecasting yang dilatih pada 3 bulan data tidak dapat memprediksi pola tahunan dengan andal. Aturan praktisnya adalah 2-3 siklus penuh dari pola apa pun yang ingin Anda modelkan.

Bagaimana tipe data digabungkan dalam use case nyata

Sebagian besar use case business AI mencakup dua atau tiga tipe data. Memahami kombinasinya memberi tahu Anda pipeline mana yang perlu dibangun dan masalah kesiapan data mana yang perlu diprioritaskan.

Use Case	Tipe Data	Kapabilitas ACE
Sales call intelligence (gaya Gong)	Audio + Text + Structured	Ingest + Analyze + Generate
Lead scoring (gaya Salesforce Einstein)	Structured + Text	Analyze + Predict
Pemrosesan invoice (AP automation)	Image + Structured	Ingest + Analyze + Execute
Triage tiket support (gaya Zendesk AI)	Text	Analyze + Predict + Execute
Deteksi penipuan (gaya Stripe Radar)	Structured + Time-series	Ingest + Analyze + Predict + Execute
Analisis log DevOps	Code + Time-series	Ingest + Analyze + Predict
Analisis demo produk	Video + Text + Structured	Ingest + Analyze + Generate

Ketika vendor mempresentasikan alat AI, tanyakan tipe data apa yang dikonsumsinya. Jika tipe-tipe tersebut tidak bersih, dapat diakses, dan terhubung dengan benar dalam stack Anda, alat tersebut tidak akan berkinerja seperti yang dijanjikan terlepas dari seberapa baik model dasarnya.

Tipe data mana yang memberi makan kapabilitas ACE mana

Matriks ini memetakan tujuh tipe data terhadap lima kapabilitas ACE. "Tinggi" berarti tipe data tersebut adalah input utama. "Sedang" berarti sekunder atau pendukung. "Rendah" berarti koneksinya jarang.

Tipe Data	Ingest	Analyze	Predict	Generate	Execute
Text	Tinggi	Tinggi	Sedang	Tinggi	Rendah
Structured	Sedang	Tinggi	Tinggi	Sedang	Sedang
Image	Tinggi	Tinggi	Rendah	Tinggi	Rendah
Audio	Tinggi	Tinggi	Rendah	Sedang	Rendah
Video	Tinggi	Sedang	Rendah	Sedang	Rendah
Code	Sedang	Tinggi	Rendah	Tinggi	Sedang
Time-series	Sedang	Tinggi	Tinggi	Rendah	Sedang

Tiga hal menonjol dalam matriks ini.

Ingest adalah titik masuk untuk tipe non-text. Gambar, audio, dan video tidak dapat langsung dipikirkan. Mereka membutuhkan konversi terlebih dahulu (OCR, transkripsi, analisis scene). Jika pipeline Ingest Anda rusak, segalanya yang ada di hilir juga gagal.

Analyze bersifat universal. Setiap tipe data memberi makan Analyze, karena memahami informasi selalu mengikuti penerimaan informasi tersebut. Inilah mengapa kapabilitas Analyze muncul di hampir setiap use case AI nyata.

Predict berjalan pada Structured dan Time-series. Forecasting dan scoring membutuhkan pola historis dalam bentuk terstruktur. Structured data yang kotor atau riwayat time-series yang pendek akan berkinerja buruk bahkan dengan model yang baik.

Sebelum memulai proyek AI apa pun: checklist inventaris data

Jalankan ini sebelum menandatangani kontrak vendor atau meluncurkan inisiatif internal. Ini membutuhkan kurang dari satu jam dan menangkap kesalahan paling mahal.

1. Tipe data apa yang dibutuhkan use case ini? Tuliskan secara spesifik. Bukan "data" secara umum. Text (dari mana?), structured (sistem mana?), audio (rekaman mana?), dan seterusnya.

2. Apakah Anda memiliki data tersebut hari ini? Jangan menghitung data yang berencana Anda kumpulkan. Hitung data yang Anda miliki. Jika use case membutuhkan 18 bulan rekaman panggilan sales dan Anda baru menggunakan Gong selama 4 bulan, Anda tidak memiliki datanya.

3. Apakah data tersebut dapat diakses oleh alat AI? Data yang ada tapi tidak dapat dijangkau adalah data yang tidak Anda miliki. Pemblokir umum: tidak ada API, integrasi belum dibangun, akses on-premise diperlukan, kebijakan IT belum menyetujui koneksi.

4. Apakah data tersebut cukup bersih untuk berguna? Untuk structured data: berapa persentase data yang memiliki kolom kunci yang terisi? Untuk text: apakah terfragmentasi di berbagai sistem? Untuk audio: berapa persentase panggilan yang sebenarnya direkam dan disimpan?

5. Apakah data tersebut memiliki izin yang benar? Audio pelanggan, komunikasi karyawan, dan data keuangan semuanya membawa kewajiban penanganan data. Konfirmasikan DPA Anda dengan vendor dan kebijakan internal Anda sebelum menghubungkan.

6. Masalah kesiapan data mana yang perlu diprioritaskan? Di sinilah sebagian besar proyek AI terhenti. Alat sudah siap; data dasarnya belum siap. Perbaiki masalah data terlebih dahulu, kemudian deploy AI yang bergantung padanya. Urutan yang membosankan. Urutan yang berhasil.

Apa yang ini katakan tentang masalah Rachel

Tiga alat AI Rachel yang gagal masing-masing memiliki masalah data yang spesifik, bukan masalah AI.

Alat meeting intelligence menghasilkan label [Speaker 1] karena pipeline vendor tidak terintegrasi dengan kalender atau CRM-nya. Transkripsi bekerja dengan baik. Langkah identifikasi pembicara tidak pernah menerima data kontak yang dibutuhkan untuk mencocokkan suara dengan nama.

Model lead-scoring mengembalikan 7/10 untuk semua orang karena CRM-nya kekurangan data historis yang terdiferensiasi. Terlalu banyak data closed-won yang memiliki kolom yang hilang (sumber, industri, ukuran perusahaan). Model tidak dapat menemukan pola pembeda dan default ke rata-rata.

Alat proposal mengutip layanan yang sudah tidak relevan karena corpus text-nya tidak memiliki pembobotan recency. Deskripsi layanan 2019 mendapat bobot yang sama dengan yang 2026.

Dalam setiap kasus, AI bekerja sesuai yang dimaksudkan. Dan sekarang Rachel dapat menamai tipe data spesifik, mengidentifikasi di mana celahnya, dan mendeskripsikan apa yang perlu diubah. Itulah nilai inventaris data: bukan sekadar daftar, tapi diagnostik.

Apa yang dibaca selanjutnya

Artikel ini memberi Anda katalog. Langkah selanjutnya adalah memahami apa yang membuat tipe data ini dapat digunakan untuk AI.

Kesiapan data untuk AI — prasyarat praktis: dapat diakses, terstruktur, segar, dan diizinkan
Panduan lapangan data bersih — mendiagnosis masalah kualitas data sebelum menenggelamkan proyek
Ingest — kapabilitas ACE pertama, dan yang menentukan apakah data gambar, audio, dan video masuk ke workflow Anda sama sekali
Analyze — kapabilitas yang berlaku untuk setiap tipe data, di mana data mentah menjadi insight bisnis
ACE Framework — tabel periodik lengkap, dengan stack enam lapisan yang menunjukkan bagaimana data, kapabilitas, dan pola terhubung

The ACE Framework Foundation