Sempadan Generate vs. Execute: Mengapa Kawalan Perlindungan Penting

Perbandingan Generate vs Execute yang menyerlahkan sempadan kawalan perlindungan

Kenali Rachel. Dia mengetuai agensi insurans dengan 90 orang pekerja, nombor pengekalan yang baik, dan pasukan yang mengenali perniagaan secara mendalam. Musim bunga lalu, Ketua Operasinya datang kepadanya dengan penuh semangat tentang sebuah perintis baharu. Mereka telah menyambungkan pembantu AI kepada sistem e-mel agensi. AI akan menganalisis pertanyaan masuk, merangka respons yang diperibadikan, dan menghantar e-mel tersebut secara automatik pada waktu malam. Kurang susulan yang terlepas, masa respons lebih pantas, bakal pelanggan lebih gembira.

Rachel bersetuju. Dia faham idea itu adalah untuk mengautomasikan proses penggubalan draf.

Dia tidak sedar bahawa dia juga bersetuju untuk mengautomasikan pengiriman.

Pagi pertama selepas pelancaran, peti masuknya menerima aduan yang dikemukakan. E-mel gubahan AI telah dihantar kepada 340 bakal pelanggan dengan tawaran sebut harga pembaharuan, untuk jenis polisi yang salah, dialamatkan kepada nama orang yang salah dalam medan cantuman yang tidak diuji. Beberapa penerima adalah pelanggan sedia ada yang tidak diberitahu bahawa mereka berada dalam sistem AI. Tiga daripada mereka menghubungi dengan marah.

Rachel tidak membuat keputusan yang buruk. Dia membuat keputusan yang tidak diterangkan. Pasukannya menganggap penggubalan draf dan pengiriman sebagai perkara yang sama.

Artikel ini untuk Rachel. Dan untuk setiap pemimpin yang perintis AI mereka hanya satu serah terima yang tidak jelas jauhnya dari sebuah insiden.

Perbezaan dalam satu ayat

Generate menghasilkan artifak yang wujud dalam konteks AI. Execute melakukan perubahan kepada sistem di luar AI yang orang lain dan proses lain boleh lihat dengan segera.

Ayat itu mengandungi keseluruhan hujah. Tetapi ada baiknya kita lebih konkrit.

Empat tempat sempadan itu berada

Perbezaan abstrak menjadi jelas apabila anda melihatnya dalam aliran kerja tertentu. Berikut adalah empat contoh yang menunjukkan aktiviti yang sama sebelum dan selepas sempadan:

Tindakan	Generate (sebelum garisan)	Execute (selepas garisan)
E-mel	AI merangka susulan dengan nama bakal pelanggan, syarikat, dan konteks yang relevan	AI menghantar draf itu ke peti masuk bakal pelanggan
Kod	AI menulis pembetulan untuk pepijat dan mencipta permintaan tarik secara setempat	AI menggabungkan permintaan tarik ke cawangan utama
Bayaran balik	AI mengesyorkan bayaran balik $340 dan merangka mesej kelulusan	AI mengeluarkan bayaran balik dalam Stripe dan menutup tiket sokongan
Kalender	AI mencadangkan tiga masa mesyuarat berdasarkan ketersediaan kedua-dua pihak	AI menghantar jemputan kalender dan menempah slot

Dalam setiap baris, pihak Generate menghasilkan sesuatu yang boleh disemak: dokumen, cadangan, pelan. Tiada yang berubah di luar AI. Manusia boleh membacanya, menyuntingnya, menolaknya, atau memperbaikinya. Kos ralat adalah sifar, kerana draf tidak pergi ke mana-mana.

Di pihak Execute, sesuatu yang nyata telah berlaku. Wang telah keluar dari akaun. Kod sudah dalam pengeluaran. Mesej telah tiba di peti masuk seseorang. Satu jam hari seseorang sudah ditempah. Membalikkan mana-mana ini memerlukan usaha. Ada yang langsung tidak boleh dibalikkan.

Mengapa sempadan itu penting

Hujah risiko adalah langsung.

Ralat Generate memalukan. Jika AI merangka e-mel yang buruk, anda membacanya dan tidak menghantarnya. Jika ia mengesyorkan jumlah bayaran balik yang salah, manusia menangkapnya. Jika kod yang ditulisnya mempunyai pepijat, pembangun anda menemuinya dalam semakan. Ralat Generate adalah murah. Ia kekal dalam sistem sehingga seseorang memutuskan sebaliknya.

Ralat Execute menelan belanja, merosakkan kepercayaan, dan sering tidak boleh dibalikkan. Pengiriman pukal yang salah kepada 10,000 pelanggan. Bayaran balik pendua yang diproses pada pukul 2 pagi. Kod yang disebarkan ke pengeluaran yang memecahkan aliran kerja teras. Jemputan kalender yang dihantar kepada pelanggan dengan agenda yang salah. Peristiwa-peristiwa ini berlaku di dunia, bukan dalam draf, dan membatalkannya memerlukan sumber yang nyata, kadangkala pendedahan undang-undang.

Asimetri inilah mengapa ACE Framework menganggap Generate dan Execute sebagai keupayaan yang berasingan. Ia kelihatan serupa dalam slaid. "AI merangka dan menghantar e-mel" kedengaran seperti satu perkara. Ia sebenarnya dua perkara dengan profil risiko dan keperluan tadbir urus yang sangat berbeza.

Tadbir urus, aliran kerja kelulusan, dan polisi manusia-dalam-gelung semuanya wujud untuk mengawal apa yang berlaku semasa peralihan dari Generate kepada Execute. Apabila peralihan itu eksplisit dan dirancang, kebanyakan insiden AI tidak berlaku. Apabila ia tersirat dan diandaikan, ia berlaku.

Sempadan dalam reka bentuk produk

Jika anda menilai alat AI atau mengkonfigurasi aliran kerja anda sendiri, sempadan Generate-Execute muncul sebagai corak reka bentuk:

Pengguna memulakan tugasan (atau pencetus menyala secara automatik)
AI berjalan: Ingest → Analyze → Generate (artifak dihasilkan, tiada perubahan luaran)
Pengguna melihat output
Pengguna meluluskan (sempadan, detik paling penting dalam aliran kerja)
Sistem melaksanakan tindakan dalam dunia luaran

Langkah 4 adalah engsel. Melewatkannya — sama ada dengan sengaja atas nama kelajuan, atau terlepas secara tidak sengaja kerana tiada siapa yang menentukan ia perlu wujud — itulah cara e-mel Rachel pergi kepada 340 orang.

Alat AI yang mengendalikan perkara ini dengan baik menjadikan sempadan kelihatan. Intercom merangka respons dan menunjukkannya kepada ejen untuk kelulusan sebelum dihantar. GitHub Copilot mencadangkan pelengkapan kod tetapi tidak menghantar secara langsung. Calendly mencadangkan masa tetapi tidak menempah sehingga penerima mengesahkan. Ini bukan batasan. Ini adalah ciri. Langkah kelulusan yang eksplisit itulah yang menjadikan alat itu cukup dipercayai untuk digunakan pada skala besar.

Lima corak pada sempadan

Tidak setiap aliran kerja memerlukan pendekatan yang sama. Lima corak ini membolehkan anda menentukur berdasarkan risiko dan volum:

1. Pintu semakan

Setiap Execute memerlukan kelulusan manusia yang eksplisit sebelum apa-apa berlaku di dunia luaran. Paling sesuai untuk tindakan bernilai tinggi atau tidak boleh dibalikkan: bayaran balik melebihi $1,000, e-mel kepada akaun utama, keputusan kakitangan. Batasan: tidak boleh berskala melebihi beberapa dozen kelulusan harian. Gunakan secara terpilih.

2. Had ambang

AI melaksanakan secara autonomi sehingga had yang ditentukan; melebihinya, tindakan dihentikan untuk semakan. Contoh: AI menyelesaikan permintaan bayaran balik secara automatik di bawah $50, menandakan apa-apa yang lebih tinggi. Had itu berada dalam konfigurasi sistem, bukan dokumen polisi. Paling sesuai untuk keputusan volum sederhana dan nilai bercampur di mana kebanyakan kes adalah selamat tetapi bahagian hujung memerlukan pengawasan.

3. Boleh-dibalikkan sahaja

AI hanya boleh melaksanakan tindakan dengan laluan batal yang disokong sistem. "Cipta tugasan" boleh dibalikkan. "Hantar e-mel" tidak. "Kemas kini medan CRM" boleh dibalikkan. "Padam rekod" tidak. Tentukan senarai, kemudian biarkan AI melaksanakan dalam batas tersebut. Paling sesuai untuk aliran kerja volum tinggi di mana ketidakbolehbalikan adalah risiko utama.

4. Mod bayang

Execute dilumpuhkan sepenuhnya. Sistem merekodkan setiap tindakan yang sepatutnya diambil tetapi tidak mengambil satu pun daripadanya. Jalankan mod bayang selama dua minggu, semak log, temui kes tepi yang tidak dijangka, kemudian aktifkan pelaksanaan langsung. Beginilah cara anda menemui senario bayaran balik pendua pada pukul 2 pagi sebelum ia menelan belanja anda.

5. Had kadar

AI boleh melaksanakan sehingga N tindakan dalam tetingkap masa, kemudian berhenti untuk kitaran semakan manusia sebelum meneruskan. Contoh: 50 e-mel jangkauan sehari, secara autonomi. Pada hari ke-51, baris gilir dihentikan dan seseorang menyemak kumpulan seterusnya. Paling sesuai untuk aliran kerja volum tinggi dan risiko individu rendah di mana hanyutan dari masa ke masa adalah kebimbangan utama.

Corak-corak ini tidak saling eksklusif. Aliran kerja yang dirancang baik mungkin menggunakan had ambang untuk bayaran balik, boleh-dibalikkan-sahaja untuk kemaskini data, dan mod bayang untuk dua minggu pertama.

Bila untuk menggabungkan Generate dan Execute

Sesetengah aliran kerja tidak memerlukan pintu semakan. Menggabungkan Generate dan Execute — membiarkan AI bertindak tanpa semakan manusia — adalah sesuai apabila ketiga-tiga perkara berikut adalah benar:

Tindakan itu berisiko rendah. Pelengkapan automatik dalam dokumen, semakan ejaan, teg yang dicadangkan pada tiket dalaman. Jika AI tersilap, kos adalah boleh diabaikan.

Tindakan itu jelas boleh dibalikkan. Batal adalah pantas, dibina dalam antaramuka, dan tidak memerlukan menghubungi sesiapa. Jika anda boleh membetulkannya dalam dua saat, pintu itu mungkin merupakan beban overhead yang tidak perlu.

Skop adalah jelas ditakrifkan dan sempit. Pelengkapan automatik dalam dokumen anda sendiri berbeza daripada menggubal e-mel yang pergi kepada pelanggan. "Tulis fungsi ini" berbeza daripada "sebarkan fungsi ini ke pengeluaran."

Corak yang perlu diperhatikan: pasukan menggabungkan Generate dan Execute kerana demo kelihatan hebat dan mereka mahukan kelajuan. Mereka melepasi sempadan kerana ia terasa seperti birokrasi. Enam minggu kemudian, mereka menjelaskan kepada pelanggan mengapa AI menghantar sebut harga harga orang lain kepada mereka.

Bila untuk tidak pernah menggabungkan sempadan

Sesetengah kategori tindakan hendaklah sentiasa mempunyai langkah kelulusan manusia, tanpa mengira seberapa yakin AI kelihatan, seberapa baik hasil perintis, atau berapa banyak masa yang dimakan oleh pintu tersebut. Ini adalah:

Komunikasi yang kelihatan oleh pelanggan. Apa-apa yang tiba di peti masuk pelanggan, SMS, atau pemberitahuan aplikasi dengan jenama anda. AI boleh merangka draf. Manusia meluluskan.

Transaksi kewangan. Bayaran balik, caj, pemindahan, pesanan pembelian. Lalai adalah sentiasa semakan. Volum mungkin akhirnya membenarkan automasi had ambang, tetapi perolehlah itu dengan sejarah.

Keputusan kakitangan. Apa-apa yang mempengaruhi pengambilan pekerja, pampasan, prestasi, atau penamatan. AI menyokong analisis. Manusia memutuskan.

Tindakan yang sensitif dari segi perundangan atau pematuhan. Kontrak, NDA, pemfailan kawal selia, apa-apa yang mewujudkan kewajipan undang-undang atau yang pengawal selia mungkin mengaudit.

Pemadaman apa jua jenis. Pemadaman adalah kesilapan Execute yang paling sukar dibalikkan. Jalankan mod bayang dahulu, tambah pintu semakan, kemudian pertimbangkan automasi hanya jika volum benar-benar menuntutnya.

Agen autonomi dan sempadan

Agen autonomi adalah corak penggunaan berisiko tertinggi dalam ACE Framework. Mereka menggabungkan kesemua lima keupayaan dalam satu gelung, berjalan ke arah matlamat dengan beberapa tindakan Execute sepanjang jalan. Setiap Execute dalam gelung adalah insiden yang berpotensi.

Risiko berganda. Agen yang tersalah klasifikasikan input (ralat Analyze) mungkin merangka respons yang salah (ralat Generate) dan kemudian melaksanakan respons yang salah itu merentas sepuluh sistem hiliran sebelum gelung selesai. Menjelang manusia menyemak log, kerosakan adalah berbilang langkah.

Tiga peraturan untuk Execute dalam gelung agen autonomi: Pertama, tulis tindakan Execute mana yang dibenarkan dilakukan oleh agen. "Cipta tugasan. Kemas kini peringkat CRM. Jangan hantar e-mel luaran. Jangan padam rekod." Kedua, tetapkan siling keras pada tindakan Execute setiap jam atau setiap pelarian dan perluaskan ia hanya apabila sejarah audit memerlukan. Ketiga, log jejak keputusan penuh bagi setiap tindakan Execute — apa yang agen ingested, analyzed, generated, dan executed, dengan cap masa. Log itu adalah satu-satunya cara untuk memahami apa yang berlaku apabila sesuatu yang salah berlaku, dan sesuatu akan pasti berlaku.

Insiden sebenar pada sempadan

Ini adalah corak kegagalan yang benar-benar berlaku. Bukan hipotetikal. Corak dari penggunaan sebenar.

E-mel gubahan AI dihantar tanpa semakan. Pepijat penapis menyertakan 15,000 kenalan yang telah memilih keluar dalam urutan jangkauan. AI merangka dan menghantar pada waktu malam. Pagi membawa 400 pembatalan langganan, 30 balasan marah, dan eskalasi undang-undang.

Bayaran balik penipuan yang diluluskan AI. AI pasukan sokongan mengeluarkan bayaran balik secara automatik untuk aduan di bawah $200. Seorang pelakon jahat menghantar 60 aduan hampir identik. AI memproses kesemua 60 sebelum mana-mana corak mencetuskan amaran manusia. $12,000 keluar dari akaun.

Penyebaran kod autonomi yang memecahkan pengeluaran. Saluran paip CI/CD menggabungkan permintaan tarik secara automatik yang lulus semua ujian automatik. Perubahan itu memecahkan integrasi hiliran yang ujian tidak merangkumi. Empat jam untuk diselesaikan, 800 pelanggan terjejas.

Mesyuarat yang dijadualkan AI yang menggantikan tempahan sedia ada. AI penjadualan menjadualkan semula panggilan pelanggan untuk memenuhi permintaan baharu tanpa sebarang pemberitahuan manusia kepada pelanggan asal. Mereka mengeskalasi kepada pasukan akaun.

Setiap insiden berkongsi satu punca akar: seseorang menganggap AI akan berhenti sebelum bertindak, dan tiada siapa yang menulis andaian itu.

Membina polisi Generate-Execute

Polisi tidak perlu panjang. Ia perlu spesifik dan dikongsi. Berikut adalah templat:

Tindakan apa yang auto-Execute? Senaraikan secara spesifik. "Hantar pemberitahuan kepada saluran pasukan dalaman. Cipta tugasan dalam sistem pengurusan projek. Kemas kini peringkat lead dalam CRM apabila urusan niaga ditanda ditutup." Jika ia tidak ada dalam senarai ini, ia bukan auto-Execute.

Apa yang memerlukan kelulusan manusia? Lalai: segala-galanya yang lain. Komunikasi menghadap pelanggan, transaksi kewangan, dan pemadaman sentiasa memerlukan kelulusan tanpa mengira saiz.

Siapa yang meluluskan? Namakan peranan, bukan orang. "Pemilik akaun meluluskan komunikasi pelanggan. Ketua pasukan kewangan meluluskan transaksi melebihi $500. Pengurus kejuruteraan meluluskan penggabungan ke cawangan utama." Satu pelulus bagi setiap kategori tindakan.

Apa yang dilog? Segala-galanya. Apa yang AI lihat, apa yang ia putuskan, apa yang ia laksanakan, siapa yang meluluskan (atau bahawa ia diluluskan secara automatik dan sebabnya), dan cap masa. Pengekalan minimum 90 hari. Akses audit untuk sesiapa sahaja yang menguruskan aliran kerja.

Bila polisi disemak? Suku tahunan. Ditambah semakan segera selepas mana-mana insiden, tanpa mengira keterukan.

Tulis ia. Letakkan ia di tempat pasukan anda boleh menemuinya.

Kesimpulan

Sempadan Generate-Execute adalah garisan terpenting dalam tadbir urus AI. Lukis ia secara sedar, dan anda akan menangkap kebanyakan insiden AI sebelum ia berlaku. Abaikan ia, dan anda akan menemuinya dengan cara yang mahal.

Generate adalah berkuasa. Execute adalah berkesan. Jarak antara keduanya adalah tepat satu langkah kelulusan, dan langkah itu amat bernilai untuk dilindungi.

Apa yang perlu dibaca seterusnya

Keupayaan Generate: enam sub-keupayaan Generate dan mod kegagalan yang perlu direka sekeliling
Keupayaan Execute: apa yang berlaku apabila AI berhenti menghasilkan draf dan mula mengubah dunia
ACE Framework: bagaimana Generate dan Execute sesuai dengan Ingest, Analyze, dan Predict dalam peta lima keupayaan penuh
Mengapa kebanyakan rangka kerja AI gagal: mengapa perbendaharaan kata lebih penting daripada slaid strategi apabila anda membuat keputusan sebenar
Menandakan inisiatif AI: cara menandakan aliran kerja Execute anda supaya pasukan anda boleh menjejak skop dan risiko merentas projek
Membaca kes penggunaan AI: terapkan perbendaharaan kata ACE kepada mana-mana pembentangan vendor, termasuk yang melibatkan Execute

The ACE Framework Foundation