Canlı sohbete katılmak, haber, uzman görüşü ve piyasa sinyallerini anında almak için TELEGRAM, TWITTER, FACEBOOK, INSTAGRAM’dan bizi takip edin.
Yapay zekâ araştırmalarında öncü şirketlerden OpenAI, Aralık 2024’te tanıttığı en yeni büyük dil modeli o3 ile dikkatleri üzerine çekmişti. Şirketin açıklamalarına göre, o3 modeli zorlu matematiksel akıl yürütme testi FrontierMath’te %25’in üzerinde başarı elde etmişti. Ancak bağımsız araştırma kuruluşları tarafından yapılan son testler, bu iddiayı gölgede bırakıyor.
FrontierMath Skoru: %25 Yerine %10
FrontierMath, lisansüstü düzeyde matematik problemlerinden oluşan ve modellerin ileri düzey mantıksal çıkarım becerilerini ölçmeyi hedefleyen bir kıyaslama testi. Aralık ayındaki lansmanda OpenAI Araştırma Direktörü Mark Chen, bu testte o3’ün “mevcut tüm modellerin açık ara önünde” olduğunu iddia etmişti.
Ancak FrontierMath’ın geliştiricisi olan Epoch AI‘ın 290 soruluk güncel veri setiyle yaptığı bağımsız testte, o3 modelinin başarısı yalnızca %10 olarak ölçüldü. Bu oran, OpenAI’nin yayınladığı teknik belgelerde belirtilen alt sınırla uyuşsa da, halka tanıtılan başarı seviyesiyle arasında ciddi fark var.
Neden Bu Kadar Fark Var?
Epoch AI, bu farkın birkaç nedenden kaynaklanabileceğini belirtiyor:
- OpenAI’nin testlerinde daha güçlü işlem gücü (test-time compute) kullanılmış olabilir.
- Kullanılan soru havuzu farklılık gösterebilir.
- İç testlerde “scaffolding” adı verilen destekleyici yapılar uygulanmış olabilir.
OpenAI yetkilileri de bu farklılığı kabul ediyor. Şirket çalışanı Wenda Zhou, geçen haftaki bir canlı yayında, halka açık versiyonun “daha hızlı ve ürün odaklı kullanımlar için optimize edildiğini” belirtti. “Performans ve maliyet arasında bir denge kurduk” diyen Zhou, benchmark sonuçlarında bu nedenle sapmalar olabileceğini ifade etti.
o3, o4 ve Mini Modeller Arasındaki Yarış Kızışıyor
İlginç şekilde, OpenAI’nin daha küçük modelleri olan o3-mini-high ve yeni tanıtılan o4-mini, FrontierMath testlerinde o3’ü geride bıraktı. Şirket, yakında daha güçlü bir o3-pro sürümü yayımlayacağını açıkladı. Bu da mevcut sürümün, en iyi performansı göstermediğini doğruluyor.
Yarışta Algı ve Gerçeklik Çatışıyor
Yapay zekâ alanında benchmark sonuçlarının pazarlama aracı hâline gelmesi, son dönemde ciddi eleştirilerin konusu. Elon Musk’ın xAI girişimi, Grok 3 modeline ait bazı grafiklerde yeteneklerini abartmakla suçlanmıştı. Bu tarz “ölçüt manipülasyonu” vakaları, sektörün şeffaflık ihtiyacını bir kez daha gündeme getiriyor.
Gerçek performans ile tanıtım arasındaki fark, kullanıcı güvenini etkileyebilir. Bu yüzden uzmanlar, sadece sonuçlara değil, test şartlarına da dikkat edilmesi gerektiğini vurguluyor.