OpenAI’nin o3 Modeli Matematik Testlerinde Bekleneni Veremedi: Gerçek Performans Tartışılıyor

Ferudun Yılmaz tarafından yayınlandı

Yapay zekâ araştırmalarında öncü şirketlerden OpenAI, Aralık 2024’te tanıttığı en yeni büyük dil modeli o3 ile dikkatleri üzerine çekmişti. Şirketin açıklamalarına göre, o3 modeli zorlu matematiksel akıl yürütme testi FrontierMath’te %25’in üzerinde başarı elde etmişti. Ancak bağımsız araştırma kuruluşları tarafından yapılan son testler, bu iddiayı gölgede bırakıyor.

FrontierMath Skoru: %25 Yerine %10

FrontierMath, lisansüstü düzeyde matematik problemlerinden oluşan ve modellerin ileri düzey mantıksal çıkarım becerilerini ölçmeyi hedefleyen bir kıyaslama testi. Aralık ayındaki lansmanda OpenAI Araştırma Direktörü Mark Chen, bu testte o3’ün “mevcut tüm modellerin açık ara önünde” olduğunu iddia etmişti.

Ancak FrontierMath’ın geliştiricisi olan Epoch AI‘ın 290 soruluk güncel veri setiyle yaptığı bağımsız testte, o3 modelinin başarısı yalnızca %10 olarak ölçüldü. Bu oran, OpenAI’nin yayınladığı teknik belgelerde belirtilen alt sınırla uyuşsa da, halka tanıtılan başarı seviyesiyle arasında ciddi fark var.

Neden Bu Kadar Fark Var?

Epoch AI, bu farkın birkaç nedenden kaynaklanabileceğini belirtiyor:

OpenAI’nin testlerinde daha güçlü işlem gücü (test-time compute) kullanılmış olabilir.
Kullanılan soru havuzu farklılık gösterebilir.
İç testlerde “scaffolding” adı verilen destekleyici yapılar uygulanmış olabilir.

OpenAI yetkilileri de bu farklılığı kabul ediyor. Şirket çalışanı Wenda Zhou, geçen haftaki bir canlı yayında, halka açık versiyonun “daha hızlı ve ürün odaklı kullanımlar için optimize edildiğini” belirtti. “Performans ve maliyet arasında bir denge kurduk” diyen Zhou, benchmark sonuçlarında bu nedenle sapmalar olabileceğini ifade etti.

o3, o4 ve Mini Modeller Arasındaki Yarış Kızışıyor

İlginç şekilde, OpenAI’nin daha küçük modelleri olan o3-mini-high ve yeni tanıtılan o4-mini, FrontierMath testlerinde o3’ü geride bıraktı. Şirket, yakında daha güçlü bir o3-pro sürümü yayımlayacağını açıkladı. Bu da mevcut sürümün, en iyi performansı göstermediğini doğruluyor.

Yarışta Algı ve Gerçeklik Çatışıyor

Yapay zekâ alanında benchmark sonuçlarının pazarlama aracı hâline gelmesi, son dönemde ciddi eleştirilerin konusu. Elon Musk’ın xAI girişimi, Grok 3 modeline ait bazı grafiklerde yeteneklerini abartmakla suçlanmıştı. Bu tarz “ölçüt manipülasyonu” vakaları, sektörün şeffaflık ihtiyacını bir kez daha gündeme getiriyor.

Gerçek performans ile tanıtım arasındaki fark, kullanıcı güvenini etkileyebilir. Bu yüzden uzmanlar, sadece sonuçlara değil, test şartlarına da dikkat edilmesi gerektiğini vurguluyor.

Haberle ilgili daha fazlası:# chatgpt # openAI

OpenAI’nin o3 Modeli Matematik Testlerinde Bekleneni Veremedi: Gerçek Performans Tartışılıyor

Bu Yazıyı Paylaş

veya linki kopyala

FrontierMath Skoru: %25 Yerine %10

Neden Bu Kadar Fark Var?

o3, o4 ve Mini Modeller Arasındaki Yarış Kızışıyor

Yarışta Algı ve Gerçeklik Çatışıyor

Benzer Haberler

Hukuki Mizah ve Mekan Oyunu: Musk’ın Apple ve OpenAI Davası Fort Worth’te Kaldı

Sam Altman’dan ABD’ye Şok Uyarı: “Yapay Zeka Yarışını Çin’e Kaybediyoruz”

ChatGPT Mobil Uygulaması 2 Milyar Doları Aştı, Rakiplerini Geride Bıraktı

OpenAI, Avrupa’ya Genişliyor

OpenAI CEO’su Sam Altman’dan ChatGPT Gizlilik Uyarısı

OpenAI’dan Dev Adım: ChatGPT Agent Piyasaya Sürüldü!