Teknologi

Hasil Tes IQ 26 Model AI April 2026: Grok dan GPT-5.4 Raih Skor 145

18
×

Hasil Tes IQ 26 Model AI April 2026: Grok dan GPT-5.4 Raih Skor 145

Sebarkan artikel ini
Tracking AI uji 26 model AI dengan tes IQ Mensa Norwegia April 2026. Grok-4.20 dan GPT-5.4 Pro raih 145, sementara Qwen 3.5 jadi model China tertinggi dengan skor 130.
Tracking AI uji 26 model AI dengan tes IQ Mensa Norwegia April 2026. Grok-4.20 dan GPT-5.4 Pro raih 145, sementara Qwen 3.5 jadi model China tertinggi dengan skor 130.

Di belakangnya, Gemini 3.1 Pro Preview dari Google mengikuti dengan skor 141 — menjadikan tiga besar dihuni oleh model dari tiga perusahaan yang berbeda. Ini mengindikasikan bahwa dominasi satu pemain tunggal di ranah kemampuan penalaran pola sudah tidak berlaku lagi.

Pencapaian ini juga menandai lompatan signifikan dibandingkan pengujian tahun sebelumnya. Pada 2025, skor tertinggi yang berhasil dicapai model AI manapun hanya 135 poin — kini ambang batas tersebut sudah terlampaui oleh tujuh model sekaligus.

Peringkat Lengkap 26 Model AI Berdasarkan Skor IQ

Berikut daftar selengkapnya hasil pengujian Tracking AI edisi April 2026:

Peringkat Model AI Skor IQ
1 Grok-4.20 Expert Mode 145
1 OpenAI GPT-5.4 Pro (Vision) 145
3 Gemini 3.1 Pro Preview 141
4 OpenAI GPT-5.4 Thinking (Vision) 139
5 OpenAI GPT-5.3 136
6 Grok-4.20 Expert Mode (Vision) 133
6 OpenAI GPT-5.4 Thinking 133
6 Meta Muse Spark 133
9 Gemini 3.1 Pro Preview (Vision) 132
10 Qwen 3.5 130
10 Claude 4.6 Opus 130
12 Kimi K2.5 127
13 Manus 115
14 DeepSeek R1 112
15 DeepSeek V3 111
16 Gemini 3.1 Flash 110
16 Llama 4 Maverick 110
18 GPT-5.3 (Vision) 109
19 Claude 4.6 Sonnet 106
20 Bing Copilot 101
21 Perplexity 97
22 Mistral Medium 3.1 96
23 Claude 4.6 Sonnet (Vision) 94
24 Claude 4.6 Opus (Vision) 82
25 Llama 4 Maverick (Vision) 79
26 GPT-5.4 Pro (non-vision) 73

Model China Masuk 10 Besar, DeepSeek Juga Tercatat

Persaingan tidak lagi hanya antara perusahaan Silicon Valley. Model AI asal China tampil kompetitif di pengujian ini.

Qwen 3.5 buatan Alibaba menjadi model AI China dengan peringkat tertinggi — berada di posisi ke-10 dengan skor 130, setara dengan Claude 4.6 Opus milik Anthropic. Model-model dari DeepSeek — yakni DeepSeek R1 (112) dan DeepSeek V3 (111) — juga masuk dalam daftar dan melampaui sejumlah model dari perusahaan Barat.

Kehadiran Kimi K2.5 dengan skor 127 di posisi ke-12 semakin memperkuat gambaran bahwa ekosistem AI Tiongkok tidak lagi sekadar pengikut — mereka sudah bersaing di kelompok menengah atas secara global.

Anomali Menarik: Varian Vision Tidak Selalu Lebih Unggul

Salah satu temuan paling mengejutkan dari data ini adalah performa varian vision yang justru kerap lebih rendah dibanding versi non-vision dari model yang sama.

Lihat GPT-5.4 Pro: versi non-vision mendapat skor hanya 73, jauh di bawah versi Vision yang meraih 145. Demikian pula Claude 4.6 Opus — versi teks mendapat 130, sementara varian Vision-nya hanya 82.

Pola ini menunjukkan bahwa kemampuan memproses gambar secara langsung belum tentu menghasilkan penalaran pola yang lebih akurat. Konversi soal ke deskripsi verbal dalam beberapa kasus justru memberikan konteks yang lebih mudah diproses oleh arsitektur model tertentu.

Skor IQ Bukan Tolok Ukur Mutlak Kecerdasan AI

Tracking AI dan Visual Capitalist secara eksplisit menegaskan bahwa skor ini bersifat perbandingan, bukan tolok ukur mutlak kecerdasan AI secara keseluruhan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *