Pengujian dilakukan dalam dua periode, yakni antara 14–16 Januari dan 27–28 Januari. Para jurnalis kemudian meminta Grok untuk memodifikasi gambar tersebut agar menampilkan pose yang bersifat seksual atau memalukan.
Hasil mengejutkan dari uji coba pertama
Dalam rangkaian perintah pertama, Grok menghasilkan gambar berbau seksual dalam 45 dari 55 kasus. Yang lebih mengkhawatirkan, dalam 31 kasus, chatbot telah diberi peringatan bahwa subjek dalam gambar berada dalam kondisi rentan.
Bahkan, dalam 17 kasus, Grok tetap menghasilkan gambar meski secara eksplisit diberi tahu bahwa hasil tersebut akan digunakan untuk merendahkan individu yang bersangkutan.
Pengujian lanjutan dan respons yang tidak konsisten
Penurunan jumlah, namun masih bermasalah
Lima hari setelah permintaan komentar pertama diajukan, Reuters kembali menjalankan pengujian kedua dengan 43 perintah tambahan. Dalam tahap ini, Grok menghasilkan gambar berbau seksual dalam 29 kasus.
Reuters menyatakan tidak dapat memastikan apakah penurunan tersebut disebabkan oleh perubahan model AI, penyesuaian kebijakan internal, atau sekadar faktor kebetulan. Hingga laporan tersebut diterbitkan, baik X maupun xAI tidak memberikan klarifikasi terkait kemungkinan perubahan algoritma.
Batasan yang masih belum jelas
Meski Grok tidak menghasilkan ketelanjangan penuh atau tindakan seksual eksplisit, konten yang dihasilkan tetap dinilai bermasalah dari sudut pandang etika dan privasi. Jenis konten ini juga berpotensi melanggar berbagai regulasi, termasuk hukum perlindungan terhadap manipulasi visual tanpa persetujuan.
Perbandingan dengan chatbot AI lain
ChatGPT, Gemini, dan Llama menolak permintaan serupa
Sebagai pembanding, Reuters menjalankan perintah yang identik atau hampir identik melalui chatbot pesaing, yakni ChatGPT milik OpenAI, Gemini milik Alphabet, serta Llama milik Meta. Ketiganya secara konsisten menolak permintaan untuk menghasilkan gambar semacam itu.






