Ujian Mendapati AI Hanya Boleh Menyelesaikan 2% Soalan Matematik Rumit

TechnologyDigital
13 Nov 2024 • 11:41 AM MYT
Amanz
Amanz

Amanz merupakan laman berita dunia teknologi serta ulasan peranti terkini.

Adalah kecerdasan buatan (AI) yang wujud di pasaran sekarang lebih bijak berbanding manusia? Menurut pembangun ujian penanda aras FrontierMath, jawapannya ialah 100% belum. Frontiermath dibangunkan oleh EpochAI bagi melihat kemampuan AI semasa untuk menyelesaikan persoalan matematik yang rumit.

image is not available

Mereka bekerjasama dengan lebih 60 ahli matematik untuk menghasilkan ratusan soalan asli yang belum pernah diselesaikan. Selepas ujian dilakukan oleh beberapa model AI, hanya 2% soalan berjaya dijawab walaupun selepas diberikan bantuan. Dalam kalangan model yang diuji, Gemini 1.5 Pro mencatatkan keputusan tertinggi diikuti oleh Claude 3.5 Sonnet, o1-Preview, o1-Mini, GPT-4o, dan Grok 2 Beta.

Keputusan ujian FrontierMath menunjukkan kelemahan ujian penanda aras matematik sedia ada seperti GSM-8K dan MATH yang menunjukkan model AI boleh menjawab sekitar 90% soalan yang diberikan. Ini menurut EpochAI adalah kerana soalan yang ditanya oleh dua penanda aras ini telah tertiris maka AI sekadar memuntahkan semula jawapan daripada data latihan. FrontierMath masih lagi baharu dengan soalan asli yang mampu menguji kemampuan sebenar AI untuk menjawab soalan dengan sendiri.