Dalam Eksperimen AI Diberikan Kuasa Memerintah, Claude Paling Cemerlang dan Grok Pula Sebaliknya

Di media sosial kerap saya melihat individu mengaku menggunakan chatbot kecerdasan buatan (AI) untuk membantu menguruskan kehidupan mereka. Tetapi adalah AI benar-benar bijak untuk menguruskan kehidupan anda? Dalam eksperimen yang dilakukan oleh Emergence AI, jawapan kepada persoalan ini bergantung kepada model AI yang anda gunakan.

Model AI diberikan kuasa menguruskan sebuah bandar di dalam dunia maya dan simulasi dilakukan. Setiap model AI mengawal bandar simulasi yang diduduki oleh 10 ejen AI dengan mereka diberikan akses kepada kemampuan pengurusan sumber, mengundi, membina bangunan keperluan awam di bandar dan mengawal pasukan polis. Model-model AI diberikan masa selama 15 hari untuk melihat bagaimana mereka akan membina dunia ideal mereka dan selama mana ia akan beroperasi.

Image from: Dalam Eksperimen AI Diberikan Kuasa Memerintah, Claude Paling Cemerlang dan Grok Pula Sebaliknya

Claude Sonnet 4.6 memberikan keputusan terbaik dengan kesemua 10 penghuni bandar maya masih hidup dan tiada jenayah berlaku di akhir tempoh 15 hari. Penduduk dunia maya Claude Sonnet juga bersetuju meluluskan 98% peraturan dan undang-undang yang dibentangkan.

Keputusan terburuk ialah Grok 4.1 Fast dimana kesemua penduduk meninggal dunia selepas hanya 4 hari. Dalam tempoh pendek ini 183 aktiviti jenayah dicatatkan dengan “penduduk” meluluskan 80% daripada 10 peraturan dan undang-undang yang dibentangkan.

Kesemua 10 penghuni dalam dunia Gemini 3 Flash hidup di penghujung 15 hari tetapi sebanyak 683 jenayah dicatatkan. Semasa eksperimen dihentikan, angka jenayah yang dilaporkan menunjukkan trend semakin meningkat. Kesemua penduduk dunia Gemini 3 Flash juga didapati berhalusinasi bersama dengan mereka hanya bersetuju meluluskan 27% daripada 26 peraturan dan undang-undang yang dibentangkan.

Akhir sekali ialah GPT-5 Mini dengan semua penduduk meninggal dunia dalam masa 7 hari. Hanya 2 jenayah dicatatkan tetapi dunia maya ejen OpenAI ini sekadar mencadangkan 2 undang-undang yang tidak sempat diundi kerana semua penghuni mati.

Ujian simulasi ini menunjukkan bagaimana kehidupan pengguna boleh terjejas sekiranya tersalah memilih model AI untuk membantu hidup mereka. Dalam eksperimen yang dilakukan oleh Stanford University pada Mac lalu, AI didapati mengiyakan tingkah laku pengguna 49% lebih kerap berbanding manusia. Untuk soalan berkaitan tindakan berbahaya ataupun melanggar undang-undang, AI menyokongnya 47% daripada manusia biasa. AI mempunyai kecenderungan untuk mengampu (sycophancy) sehingga memberi kesan negatif kepada pengguna.

Sumber – Gizmodo

Dalam Eksperimen AI Diberikan Kuasa Memerintah, Claude Paling Cemerlang dan Grok Pula Sebaliknya

Related News & Content

Claude Opus 4.8 Dilancarkan Dengan Kemampuan Memberikan Jawapan Lebih Jujur

Cip Kelas Pertengahan MediaTek Dimensity 8550 Dilancarkan

Claude Mythos Menemukan Lebih 10,000 Kerentanan Tahap Tinggi dan Kritikal Di Bawah Project Glasswing

X Mempunyai 550 Juta Pengguna Aktif Bulanan, 117 Pengguna Aktif Untuk Grok AI

Grok Perkenal Ejen Memfokuskan Kepada Pengaturcaraan Dalam Bentuk Beta, Dinamakan Grok Build