Ujian Mendapati AI Hanya Boleh Menyelesaikan 2% Soalan Matematik Rumit

TechnologyDigital
13 Nov 2024 • 11:41 AM MYT
Amanz
Amanz

Amanz merupakan laman berita dunia teknologi serta ulasan peranti terkini.

Adalah kecerdasan buatan (AI) yang wujud di pasaran sekarang lebih bijak berbanding manusia? Menurut pembangun ujian penanda aras FrontierMath, jawapannya ialah 100% belum. Frontiermath dibangunkan oleh EpochAI bagi melihat kemampuan AI semasa untuk menyelesaikan persoalan matematik yang rumit.

image is not available

Mereka bekerjasama dengan lebih 60 ahli matematik untuk menghasilkan ratusan soalan asli yang belum pernah diselesaikan. Selepas ujian dilakukan oleh beberapa model AI, hanya 2% soalan berjaya dijawab walaupun selepas diberikan bantuan. Dalam kalangan model yang diuji, Gemini 1.5 Pro mencatatkan keputusan tertinggi diikuti oleh Claude 3.5 Sonnet, o1-Preview, o1-Mini, GPT-4o, dan Grok 2 Beta.

Keputusan ujian FrontierMath menunjukkan kelemahan ujian penanda aras matematik sedia ada seperti GSM-8K dan MATH yang menunjukkan model AI boleh menjawab sekitar 90% soalan yang diberikan. Ini menurut EpochAI adalah kerana soalan yang ditanya oleh dua penanda aras ini telah tertiris maka AI sekadar memuntahkan semula jawapan daripada data latihan. FrontierMath masih lagi baharu dengan soalan asli yang mampu menguji kemampuan sebenar AI untuk menjawab soalan dengan sendiri.

Newswav Malaysia Best News App

Newswav is an online content aggregator and obtains its content from different online sources. The content in the app do not belong to Newswav nor do they reflect the opinions of Newswav and its staff. Your use of this app indicates your understanding and acceptance of this information.

Newswav Sdn. Bhd. (201701008480 (1222645-M)) 2026 All Rights Reserved