Ujian Mendapati AI Hanya Boleh Menyelesaikan 2% Soalan Matematik Rumit

TechnologyDigital

13 Nov 2024 • 11:41 AM MYT

Amanz

Amanz merupakan laman berita dunia teknologi serta ulasan peranti terkini.

Adalah kecerdasan buatan (AI) yang wujud di pasaran sekarang lebih bijak berbanding manusia? Menurut pembangun ujian penanda aras FrontierMath, jawapannya ialah 100% belum. Frontiermath dibangunkan oleh EpochAI bagi melihat kemampuan AI semasa untuk menyelesaikan persoalan matematik yang rumit.

Mereka bekerjasama dengan lebih 60 ahli matematik untuk menghasilkan ratusan soalan asli yang belum pernah diselesaikan. Selepas ujian dilakukan oleh beberapa model AI, hanya 2% soalan berjaya dijawab walaupun selepas diberikan bantuan. Dalam kalangan model yang diuji, Gemini 1.5 Pro mencatatkan keputusan tertinggi diikuti oleh Claude 3.5 Sonnet, o1-Preview, o1-Mini, GPT-4o, dan Grok 2 Beta.

Keputusan ujian FrontierMath menunjukkan kelemahan ujian penanda aras matematik sedia ada seperti GSM-8K dan MATH yang menunjukkan model AI boleh menjawab sekitar 90% soalan yang diberikan. Ini menurut EpochAI adalah kerana soalan yang ditanya oleh dua penanda aras ini telah tertiris maka AI sekadar memuntahkan semula jawapan daripada data latihan. FrontierMath masih lagi baharu dengan soalan asli yang mampu menguji kemampuan sebenar AI untuk menjawab soalan dengan sendiri.

Ujian Mendapati AI Hanya Boleh Menyelesaikan 2% Soalan Matematik Rumit

Related News & Content

“Dah Boleh Lupakan LinkedIn & Indeed..”- Lebih Membantu, Individu Kongsi Cara Cari Kerja Guna ChatGPT

Lukisan Yang Dihasilkan Oleh Robot Dengan AI Dilelong Pada Harga $1.32 Juta

Pendidikan AI lahir modal insan berkemahiran tinggi