Teknologi

Martin Hairer Ungkap Kelemahan AI: ChatGPT-5.2 Pro dan Gemini 3.0 Gagal Pecahkan Riset Matematika

Advertisement

Sejumlah model kecerdasan buatan (AI) tercanggih saat ini ternyata masih menunjukkan keterbatasan signifikan saat berhadapan dengan persoalan matematika tingkat tinggi. Dalam sebuah eksperimen bertajuk “First Proof”, peraih Fields Medal 2014, Martin Hairer, bersama tim matematikawan dari Harvard, Stanford, dan MathSci.ai, menguji kemampuan AI dalam menyelesaikan soal riset yang belum pernah dipublikasikan.

Hasil Eksperimen First Proof terhadap Model AI Terbaru

Eksperimen ini melibatkan model AI paling mutakhir, termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think. Penggunaan soal yang belum dipublikasikan bertujuan untuk memastikan bahwa AI tidak sekadar mengambil jawaban dari data latihan yang tersedia di internet. Namun, hasil yang diperoleh justru menunjukkan performa AI yang jauh di bawah ekspektasi para ahli.

Martin Hairer bahkan menyamakan kualitas jawaban yang dihasilkan oleh AI dengan performa mahasiswa S1 yang kurang pintar. Menurutnya, AI cenderung memberikan penjelasan yang sangat mendetail pada bagian-bagian yang mudah, namun justru kehilangan arah saat harus menghadapi inti argumen yang kompleks.

Kecenderungan Mengarang dan Fenomena Hand-Waving

Dalam proses pembuktian, AI sering kali ditemukan melakukan praktik hand-waving atau memberikan argumen yang kabur dan tidak jelas di tengah-tengah logika matematika. Hairer menjelaskan bahwa AI seolah memahami titik awal dan hasil akhir, tetapi tidak memiliki kemampuan untuk membangun jalur pembuktian yang valid secara mandiri.

Kondisi ini menyebabkan AI sering kali mengarang langkah-langkah logika dengan harapan pembaca tidak menyadari kesalahan tersebut. Hal ini mempertegas bahwa meskipun AI unggul dalam mengolah bahasa, kemampuannya dalam penalaran logika murni masih sangat terbatas.

Advertisement

Faktor Penghambat AI dalam Bidang Matematika

Tim peneliti mengidentifikasi beberapa alasan utama mengapa AI belum mampu menggantikan peran matematikawan profesional, di antaranya:

  • Kelemahan Penalaran Visual: AI masih kesulitan dalam melakukan visual reasoning, sehingga gagal saat dihadapkan pada soal yang membutuhkan imajinasi ruang.
  • Daya Ingat Terbatas: Kualitas jawaban AI menurun drastis saat harus menangani pembuktian panjang yang melebihi lima halaman.
  • Ketiadaan Debat Ide: Tamara Kolda dari MathSci.ai menyebut AI sebagai sistem yang hanya mengikuti sudut pandang pengguna tanpa bisa memberikan perspektif kritis yang menantang.
  • Terjebak Lingkaran Setan: Profesor Harvard, Lauren Williams, menemukan bahwa AI sering terjebak dalam infinite loop, di mana sistem terus mengoreksi diri sendiri tanpa mencapai solusi final.

Keamanan Karier di Bidang Matematika

Menanggapi kekhawatiran mengenai masa depan profesi matematikawan, Hairer menegaskan bahwa bidang ini masih relatif aman dari ancaman otomasi AI. Meskipun Large Language Model (LLM) mahir menyelesaikan soal latihan standar, Hairer belum menemukan bukti bahwa AI mampu mencetuskan ide atau konsep matematika yang benar-benar orisinal.

Informasi mengenai keterbatasan AI dalam riset matematika ini dihimpun berdasarkan laporan dari The New York Times dan pernyataan resmi tim peneliti yang dirilis pada Februari 2026.

Advertisement