OpenAI’nin o3 Modeli Matematik Testlerinde Bekleneni Veremedi: Gerçek Performans Tartışılıyor

featured
service
Canlı sohbete katılmak, haber, uzman görüşü ve piyasa sinyallerini anında almak için TELEGRAM, TWITTER, FACEBOOK, INSTAGRAM’dan bizi takip edin.

Yapay zekâ araştırmalarında öncü şirketlerden OpenAI, Aralık 2024’te tanıttığı en yeni büyük dil modeli o3 ile dikkatleri üzerine çekmişti. Şirketin açıklamalarına göre, o3 modeli zorlu matematiksel akıl yürütme testi FrontierMath’te %25’in üzerinde başarı elde etmişti. Ancak bağımsız araştırma kuruluşları tarafından yapılan son testler, bu iddiayı gölgede bırakıyor.


FrontierMath Skoru: %25 Yerine %10

FrontierMath, lisansüstü düzeyde matematik problemlerinden oluşan ve modellerin ileri düzey mantıksal çıkarım becerilerini ölçmeyi hedefleyen bir kıyaslama testi. Aralık ayındaki lansmanda OpenAI Araştırma Direktörü Mark Chen, bu testte o3’ün “mevcut tüm modellerin açık ara önünde” olduğunu iddia etmişti.

Ancak FrontierMath’ın geliştiricisi olan Epoch AI‘ın 290 soruluk güncel veri setiyle yaptığı bağımsız testte, o3 modelinin başarısı yalnızca %10 olarak ölçüldü. Bu oran, OpenAI’nin yayınladığı teknik belgelerde belirtilen alt sınırla uyuşsa da, halka tanıtılan başarı seviyesiyle arasında ciddi fark var.


Neden Bu Kadar Fark Var?

Epoch AI, bu farkın birkaç nedenden kaynaklanabileceğini belirtiyor:

  • OpenAI’nin testlerinde daha güçlü işlem gücü (test-time compute) kullanılmış olabilir.
  • Kullanılan soru havuzu farklılık gösterebilir.
  • İç testlerde “scaffolding” adı verilen destekleyici yapılar uygulanmış olabilir.

OpenAI yetkilileri de bu farklılığı kabul ediyor. Şirket çalışanı Wenda Zhou, geçen haftaki bir canlı yayında, halka açık versiyonun “daha hızlı ve ürün odaklı kullanımlar için optimize edildiğini” belirtti. “Performans ve maliyet arasında bir denge kurduk” diyen Zhou, benchmark sonuçlarında bu nedenle sapmalar olabileceğini ifade etti.


o3, o4 ve Mini Modeller Arasındaki Yarış Kızışıyor

İlginç şekilde, OpenAI’nin daha küçük modelleri olan o3-mini-high ve yeni tanıtılan o4-mini, FrontierMath testlerinde o3’ü geride bıraktı. Şirket, yakında daha güçlü bir o3-pro sürümü yayımlayacağını açıkladı. Bu da mevcut sürümün, en iyi performansı göstermediğini doğruluyor.


Yarışta Algı ve Gerçeklik Çatışıyor

Yapay zekâ alanında benchmark sonuçlarının pazarlama aracı hâline gelmesi, son dönemde ciddi eleştirilerin konusu. Elon Musk’ın xAI girişimi, Grok 3 modeline ait bazı grafiklerde yeteneklerini abartmakla suçlanmıştı. Bu tarz “ölçüt manipülasyonu” vakaları, sektörün şeffaflık ihtiyacını bir kez daha gündeme getiriyor.

Gerçek performans ile tanıtım arasındaki fark, kullanıcı güvenini etkileyebilir. Bu yüzden uzmanlar, sadece sonuçlara değil, test şartlarına da dikkat edilmesi gerektiğini vurguluyor.

0
be_endim
Beğendim
0
dikkatimi_ekti
Dikkatimi Çekti
0
do_ru_bilgi
Doğru Bilgi
0
e_siz_bilgi
Eşsiz Bilgi
0
alk_l_yorum
Alkışlıyorum
0
sevdim
Sevdim
Sorumluluk Reddi Beyanı:

Bu sitede yer alan tüm bilgiler haber ve bilgilendirme amaçlı olup yatırım tavsiyesi değildir.Çok riskli bir yatırım aracı olan kripto paralara kaybına tahammül edemeyeceğiniz bir yatırım yapmaktan kaçınınız.