Di belakangnya, Gemini 3.1 Pro Preview dari Google mengikuti dengan skor 141 — menjadikan tiga besar dihuni oleh model dari tiga perusahaan yang berbeda. Ini mengindikasikan bahwa dominasi satu pemain tunggal di ranah kemampuan penalaran pola sudah tidak berlaku lagi.
Pencapaian ini juga menandai lompatan signifikan dibandingkan pengujian tahun sebelumnya. Pada 2025, skor tertinggi yang berhasil dicapai model AI manapun hanya 135 poin — kini ambang batas tersebut sudah terlampaui oleh tujuh model sekaligus.
Peringkat Lengkap 26 Model AI Berdasarkan Skor IQ
Berikut daftar selengkapnya hasil pengujian Tracking AI edisi April 2026:
| Peringkat | Model AI | Skor IQ |
|---|---|---|
| 1 | Grok-4.20 Expert Mode | 145 |
| 1 | OpenAI GPT-5.4 Pro (Vision) | 145 |
| 3 | Gemini 3.1 Pro Preview | 141 |
| 4 | OpenAI GPT-5.4 Thinking (Vision) | 139 |
| 5 | OpenAI GPT-5.3 | 136 |
| 6 | Grok-4.20 Expert Mode (Vision) | 133 |
| 6 | OpenAI GPT-5.4 Thinking | 133 |
| 6 | Meta Muse Spark | 133 |
| 9 | Gemini 3.1 Pro Preview (Vision) | 132 |
| 10 | Qwen 3.5 | 130 |
| 10 | Claude 4.6 Opus | 130 |
| 12 | Kimi K2.5 | 127 |
| 13 | Manus | 115 |
| 14 | DeepSeek R1 | 112 |
| 15 | DeepSeek V3 | 111 |
| 16 | Gemini 3.1 Flash | 110 |
| 16 | Llama 4 Maverick | 110 |
| 18 | GPT-5.3 (Vision) | 109 |
| 19 | Claude 4.6 Sonnet | 106 |
| 20 | Bing Copilot | 101 |
| 21 | Perplexity | 97 |
| 22 | Mistral Medium 3.1 | 96 |
| 23 | Claude 4.6 Sonnet (Vision) | 94 |
| 24 | Claude 4.6 Opus (Vision) | 82 |
| 25 | Llama 4 Maverick (Vision) | 79 |
| 26 | GPT-5.4 Pro (non-vision) | 73 |
Model China Masuk 10 Besar, DeepSeek Juga Tercatat
Persaingan tidak lagi hanya antara perusahaan Silicon Valley. Model AI asal China tampil kompetitif di pengujian ini.
Qwen 3.5 buatan Alibaba menjadi model AI China dengan peringkat tertinggi — berada di posisi ke-10 dengan skor 130, setara dengan Claude 4.6 Opus milik Anthropic. Model-model dari DeepSeek — yakni DeepSeek R1 (112) dan DeepSeek V3 (111) — juga masuk dalam daftar dan melampaui sejumlah model dari perusahaan Barat.
Kehadiran Kimi K2.5 dengan skor 127 di posisi ke-12 semakin memperkuat gambaran bahwa ekosistem AI Tiongkok tidak lagi sekadar pengikut — mereka sudah bersaing di kelompok menengah atas secara global.
Anomali Menarik: Varian Vision Tidak Selalu Lebih Unggul
Salah satu temuan paling mengejutkan dari data ini adalah performa varian vision yang justru kerap lebih rendah dibanding versi non-vision dari model yang sama.
Lihat GPT-5.4 Pro: versi non-vision mendapat skor hanya 73, jauh di bawah versi Vision yang meraih 145. Demikian pula Claude 4.6 Opus — versi teks mendapat 130, sementara varian Vision-nya hanya 82.
Pola ini menunjukkan bahwa kemampuan memproses gambar secara langsung belum tentu menghasilkan penalaran pola yang lebih akurat. Konversi soal ke deskripsi verbal dalam beberapa kasus justru memberikan konteks yang lebih mudah diproses oleh arsitektur model tertentu.
Skor IQ Bukan Tolok Ukur Mutlak Kecerdasan AI
Tracking AI dan Visual Capitalist secara eksplisit menegaskan bahwa skor ini bersifat perbandingan, bukan tolok ukur mutlak kecerdasan AI secara keseluruhan.

Aaf Afiatna (Aura OS) adalah seorang WordPress Developer, Administrator IT, dan penggerak di balik infrastruktur berbagai portal media digital PT Arina Duta Sehati. Ia memiliki ketertarikan mendalam pada rekayasa sistem tingkat rendah, implementasi AI on-device, pengembangan proyek open-source seperti Neural Standby Kernel (NSK), lifestyle, dan zodiak. Saat tidak sedang berurusan dengan server atau kode, ia aktif mengeksplorasi ekosistem Web3 dan berbagi wawasan melalui channel YouTube CryptoFansWorld.





