AI Terpintar Vs Soal Matematika Profesor, Begini Hasil Uji Coba Terbarunya
XJABAR.COM – AI terpintar seperti ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think diuji langsung menggunakan soal matematika riset tingkat tinggi yang dirancang profesor, dan hasilnya menunjukkan bahwa kecerdasan buatan belum mampu menggantikan peran matematikawan manusia dalam menciptakan ide orisinal. Kesimpulan ini disampaikan oleh Martin Hairer, peraih Fields Medal 2014—penghargaan paling prestisius dalam dunia matematika—yang terlibat langsung dalam eksperimen tersebut.
Pernyataan ini muncul sebagai respons terhadap kekhawatiran sejumlah pelajar dan mahasiswa bahwa perkembangan AI generatif akan mengancam masa depan profesi di bidang matematika. Dalam sebuah korespondensi email dengan seorang siswa sekolah menengah atas (SMA), Hairer secara tegas menyatakan bahwa matematika masih “aman” dari ancaman kecerdasan buatan.
Eksperimen bertajuk “First Proof” yang dilakukan Hairer bersama tim matematikawan dari Harvard, Stanford, dan MathSci.ai menguji kemampuan Large Language Model (LLM) dengan soal riset yang belum pernah dipublikasikan sebelumnya. Tujuannya jelas: memastikan AI tidak bisa menyontek jawaban dari data latihannya di internet.
Siapa Martin Hairer dan Mengapa Uji Ini Penting?
Peraih Fields Medal dan Otoritas di Dunia Matematika
Martin Hairer adalah matematikawan terkemuka yang menerima Fields Medal pada 2014 atas kontribusinya dalam teori probabilitas dan persamaan diferensial stokastik. Fields Medal sering disebut sebagai “Nobel-nya matematika,” sehingga pendapat Hairer memiliki bobot akademik yang tinggi.
Ketika seorang siswa SMA menyampaikan kekhawatiran bahwa AI akan menggantikan matematikawan, Hairer menjawab dengan analisis berbasis pengalaman dan riset nyata. Ia menegaskan bahwa meskipun AI mampu menyelesaikan soal latihan standar, AI belum menunjukkan kemampuan menciptakan ide atau konsep matematika yang benar-benar baru.
“Saya belum melihat contoh yang masuk akal di mana LLM menghasilkan ide atau konsep baru yang benar-benar orisinal,” ujar Hairer.
Apa Itu Eksperimen “First Proof”?
Uji Coba Soal Riset yang Belum Dipublikasikan
Eksperimen “First Proof” dirancang untuk menguji kemampuan AI terpintar dalam menyelesaikan masalah matematika riset yang belum tersedia jawabannya di internet. Model yang diuji termasuk:
- ChatGPT-5.2 Pro
- Google Gemini 3.0 Deep Think
Soal yang diberikan bukan soal latihan biasa, melainkan persoalan riset murni yang membutuhkan penalaran mendalam, kreativitas konseptual, serta kemampuan menyusun pembuktian panjang dan sistematis.
Tujuan utama eksperimen ini adalah menjawab pertanyaan penting: Apakah AI mampu menciptakan terobosan matematika yang benar-benar baru?
Bagaimana Hasilnya?
Jawaban AI Dinilai Lemah dan Tidak Konsisten
Menurut Hairer, hasil eksperimen menunjukkan bahwa AI masih jauh dari level matematikawan profesional.
Ia bahkan menyamakan kualitas jawaban AI dengan mahasiswa sarjana (S1) yang kurang memahami materi.
“Model AI cenderung memberikan banyak detail bertele-tele pada bagian yang mudah. Namun, pada inti argumen yang sulit, detailnya sangat minim,” jelas Hairer.
AI terlihat mampu memahami titik awal dan tujuan akhir pembuktian, tetapi tidak mengetahui langkah-langkah logis untuk mencapainya. Akibatnya, model sering melakukan apa yang disebut sebagai “hand-waving”—yakni memberikan argumen kabur tanpa justifikasi kuat.
Di Mana Letak Kelemahan AI dalam Matematika?
1. Lemah dalam Visual Reasoning
Salah satu kelemahan utama yang ditemukan adalah kemampuan penalaran visual (visual reasoning). Banyak cabang matematika tingkat lanjut memerlukan imajinasi spasial dan visualisasi abstrak.
AI generatif berbasis teks terbukti kesulitan menangani persoalan yang membutuhkan representasi ruang atau geometri kompleks.
2. Daya Ingat Kontekstual Terbatas
Jika pembuktian matematika membutuhkan penjelasan panjang lebih dari lima halaman, kualitas jawaban AI mulai menurun drastis.






