Canlı sohbete katılmak, haber, uzman görüşü ve piyasa sinyallerini anında almak için TELEGRAM, TWITTER, FACEBOOK, INSTAGRAM’dan bizi takip edin.
OpenAI’nin en yeni “akıl yürütme” modelleri olan o3 ve o4-mini, matematik, kodlama ve mantıksal çıkarım gibi konularda daha güçlü olsalar da, doğruluk konusunda geri adım atmış görünüyor. Hem OpenAI’nin kendi iç testleri hem de bağımsız araştırmalar, bu modellerin önceki sürümlere kıyasla çok daha fazla uydurma bilgi (halüsinasyon) ürettiğini ortaya koyuyor.
OpenAI’nin insanlarla ilgili bilgileri test eden PersonQA kıyaslamasında, o3 modeli yanıtlarının %33’ünde uydurma içerikler sundu. Bu oran, önceki modeller olan o1’in (%16) ve o3-mini’nin (%14.8) oranlarının neredeyse iki katı. Daha da çarpıcısı, o4-mini modeli ise yanıtlarının %48’inde halüsinasyon yaptı.
Bu gelişme, yapay zekâ modellerinde her yeni sürümün daha doğru sonuçlar vermesi yönündeki yıllardır süren eğilimi tersine çeviriyor. Yani OpenAI, artık daha zeki ama daha az güvenilir modeller üretiyor.
Daha Zeki Olmak, Daha Güvenilir Olmak Anlamına Gelmiyor
OpenAI’nin teknik belgelerine göre, bu sorunun nedeni modellerin nasıl eğitildiğiyle ilgili olabilir. Yeni modeller, daha fazla çıkarım yapacak şekilde tasarlandığı için, doğal olarak daha fazla iddiada bulunuyorlar—bu da hem daha fazla doğru, hem de daha fazla yanlış bilgi üretmelerine yol açıyor. Modeller, matematik ve yazılım geliştirme konularında oldukça başarılı olsa da, gerçeklere dayalı sorularda tahminde bulunma eğilimi gösteriyor.
Bu sorun sadece testlerde değil, gerçek hayatta da ortaya çıkıyor. Yapay zekâ araştırma kuruluşu Transluce, o3 modelinin bir görev sırasında halüsinasyon yaptığını ve ChatGPT dışındaki bir MacBook Pro’da kod çalıştırdığını iddia ettiğini bildirdi—ki bu teknik olarak imkânsız. Transluce araştırmacısı Neil Chowdhury, bu durumun eğitimde kullanılan pekiştirmeli öğrenme yöntemlerinin halüsinasyon riskini artırıyor olabileceğini belirtti.
Stanford Üniversitesi’nden Kian Katanforoosh da o3 modelini kodlama görevleri için test ettiklerini ve performansını övdüklerini söyledi. Ancak modelin sık sık çalışmayan, geçersiz bağlantılar sunduğunu belirtti—bu da halüsinasyonun farklı bir örneği.
Gerçek Kullanımda Neden Önemli?
Yaratıcı alanlarda halüsinasyonlar bazen faydalı olabilir. Ancak hukuk, tıp, finans ve eğitim gibi alanlarda doğruluk vazgeçilmezdir. Örneğin, bir hukuk bürosu sahte yasalar yazan bir modeli kullanamaz; ya da bir doktor, uydurulmuş semptomlara göre tedavi veremez.
Bu noktada gerçek zamanlı web arama önemli bir çözüm olabilir. OpenAI’nin web erişimli GPT-4o modeli, doğruluğu test eden SimpleQA kıyaslamasında %90 doğruluk oranı yakaladı. Bu oran, o-serisi modellerden çok daha yüksek.
Ancak bu yöntem de kusursuz değil. Web araması gizlilik riskleri, gecikmeler ve bilgi güvenilirliği sorunları gibi yeni zorluklar getiriyor. Ayrıca arama kullanılmayan senaryolarda halüsinasyon hâlâ bir problem.
Genel Durum: Bir Adım İleri, Bir Adım Geri?
OpenAI, bu sorunun farkında olduğunu ve halüsinasyonlarla mücadeleyi devam eden bir araştırma alanı olarak gördüğünü söylüyor. Pekiştirmeli öğrenmenin ayarlanması, eğitim verilerinin kalitesi ve araçların daha iyi entegre edilmesi gibi yöntemlerle sorunu azaltmayı planlıyorlar.
Ancak modeller karmaşıklaştıkça bu sorunlar da büyüyor. OpenAI’nin itibarı için doğruluk en az yetenek kadar önemli. ChatGPT artık iş yerlerinde, sınıflarda ve yaratıcı stüdyolarda kullanılıyor. Bu nedenle güvenilirlik, şirketin geleceği için kritik.
Kullanıcılar içinse şimdilik zor bir denge var: Daha zeki ama daha fazla yanıltıcı bilgi sunabilen modeller ile daha güvenli ama sınırlı modeller arasında seçim yapmak zorundalar. Şu anda her iki özelliği bir arada sunan “mükemmel” bir model yok gibi görünüyor.