Bagikan:

JAKARTA –ChatGPT o3 dan o4-mini merupakan model Kecerdasan Buatan (AI) terbaru dari OpenAI. Meski diklaim sebagai model penalaran tercanggih, keduanya lebih sering berhalusinasi dibandingkan model OpenAI lainnya.

Berhalusinasi merupakan salah satu penyakit yang dihindari oleh para pengembang AI, termasuk OpenAI. Ketika mengalami hal ini, model AI akan cenderung mengarang dibandingkan memberikan respons yang tepat dan sesuai dengan yang dibutuhkan pengguna. 

Hingga saat ini, halusinasi masih menjadi tantangan terbesar AI karena berdampak langsung pada sistem dan kinerja modelnya. Meski sebagian besar model AI sudah berhasil mengatasi masalah tersebut, o3 dan o4-mini milik OpenAI gagal melakukannya. 

Menurut hasil pengujian internal OpenAI, kedua model penalaran ini lebih sering berhalusinasi dibandingkan dengan o1, o1-mini, dan o3-mini. Jika dibandingkan dengan model non-penalaran OpenAI, GPT-4o justru memiliki hasil pengujian yang jauh lebih baik. 

Hal yang cukup memprihatinkan adalah OpenAI tidak tahu penyebab o3 dan o4-mini sering berhalusinasi. Perusahaan itu mencatat bahwa mereka 'memerlukan lebih banyak latihan' untuk mengetahui penyebab halusinasinya terjadi. 

Dari hasil pengujian OpenAI, o3 berhalusinasi sebanyak 33 persen saat menjawab pertanyaan di PersonQA, benchmark yang diandalkan perusahaan. Sementara itu, o4-mini memiliki persentase benchmark yang lebih buruk, yakni sebesar 48 persen. 

Halusinasi ini jauh lebih parah dibandingkan model penalaran terdahulu. Pasalnya, o1 dan o3-mini masing-masing hanya memperoleh skor 16 persen dan 14,8 persen di pengujian benchmark. Ini dua kali lebih rendah dari model o3 dan o4-mini. 

Hasil pengujian Transluce, mengutip dari TechCrunch, juga menunjukkan hasil yang serupa dengan pengujian OpenAI. Laboratorium Penelitian AI nirlaba itu menemukan bahwa o3 sering mengarang tindakan untuk memberikan jawaban kepada pengguna. 

"Hipotesis kami adalah bahwa jenis pembelajaran penguatan yang digunakan untuk model seri-o dapat memperkuat masalah yang biasanya diatasi (tetapi tidak sepenuhnya dihapus) oleh jalur pasca-pelatihan standar," kata Neil Chowdhury, Peneliti Transluce sekaligus mantan Karyawan OpenAI.