Haberler

OpenAI’nin o3 İddiaları Tartışma Yarattı: Şeffaflık Sorunları Gündemde

OpenAI’nin yeni o3 modeli, FrontierMath benchmark’ında rekor kıran bir performans iddiasında bulundu. Ancak, bu iddiaların arkasındaki verilere erişimle ilgili soru işaretleri, şirketin şeffaflığını tartışmaya açtı. Uzmanlar, OpenAI’nin Theranos benzeri bir duruma düşebileceği konusunda uyarıyor.

EpochAI’nin yardımcı direktörü Tamay Besiroglu, OpenAI’nin FrontierMath benchmark’ının geliştirilmesine dahil olduğunu kabul etti. Ancak, sözleşme kısıtlamaları nedeniyle bu bilgiyi açıklayamadıklarını belirtti. Benchmark’ın oluşturulmasına katkıda bulunan altı matematikçi, OpenAI’nin verilere özel erişimi olduğunu bilmiyordu. Bu durumu öğrendikten sonra, eğer bilselerdi katılıp katılmayacaklarını sorguladılar.

Besiroglu, şeffaflığın öncelikli olması gerektiğini kabul ederek OpenAI’nin FrontierMath veri setinin önemli bir bölümüne erişimi olduğunu itiraf etti. Ancak, OpenAI’nin görmediği bir veri seti kullanılarak modelin iddiaları doğrulandı. Bu durum, sürecin adilliği ve şeffaflığı hakkında şüpheler uyandırdı.

OpenAI’nin Rekor Kıran İddiaları

OpenAI, Aralık 2024’te o3 modelinin FrontierMath benchmark’ında %25 doğruluk oranına ulaştığını duyurdu. Bu, önceki %2’lik rekorun çok üzerinde bir başarıydı. FrontierMath benchmark’ı, büyük dil modellerini (LLM) son derece zor matematik problemleriyle test etmesiyle biliniyor. Bu iddia, o3’ü yapay zeka alanında devrimci bir ilerleme olarak konumlandırdı.

Ancak, uzmanlar OpenAI’nin benchmark’ın oluşturulmasına ve finansmanına dahil olması nedeniyle kullanılan verilerin güvenilirliğini sorguluyor.

Uzmanlar OpenAI’nin Şeffaflığını Sorguluyor

Yapay zeka uzmanları, OpenAI’nin bu hamlesini Theranos’un tıp teknolojisiyle ilgili yanıltıcı iddialarına benzetiyor. Ünlü yapay zeka uzmanı Gary Marcus, OpenAI’nin şeffaflık eksikliğini eleştirerek o3’ün farklı problem türlerindeki performansının bağımsız bir şekilde doğrulanmadığını vurguladı. Eleştirmenler, OpenAI’nin veri setine erişimi nedeniyle sürecin taraflı olabileceğini savunuyor.

ARC-AGI benchmark’ının yaratıcısı François Chollet da o3’ün performansına ilişkin endişelerini dile getirdi. OpenAI, o3’ün ARC-AGI benchmark’ında insan performansını aştığını iddia etse de Chollet, modelin hala basit görevleri çözemeyebileceğini belirtti. Bu durum, o3’ün Gerçek Yapay Genel Zeka (AGI) yolunda ilerleyip ilerlemediği konusunda şüpheler yarattı.

Tartışmalara rağmen OpenAI, o3 mini modelini önümüzdeki haftalarda piyasaya sürmeye hazırlanıyor. CEO Sam Altman, bu yeni modelin lansmanı konusunda heyecanlı olduğunu belirtti. Şirket, o3 modelini genişletme planlarını sürdürüyor ancak performans ve test yöntemleriyle ilgili artan incelemeler devam ediyor.

OpenAI’nin o3 benchmark iddiaları, yapay zeka araştırmalarında şeffaflık ve adillik konusunda önemli soruları gündeme getiriyor. OpenAI’nin iddiaları etkileyici görünse de, bağımsız doğrulama eksikliği ve veri setine erişimle ilgili tartışmalar, bu sonuçların güvenilirliğini sorgulatıyor. Yapay zeka topluluğu, OpenAI’nin bir sonraki adımlarını yakından izleyerek o3’ün gerçek bir atılım mı yoksa abartılmış iddialar mı olduğunu değerlendirecek.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu