OpenAI, o3 ve o3 Mini Akıl Yürütme Modellerini Tanıttı
OpenAI, “12 Days of OpenAI” etkinliğinin son gününde yeni nesil akıl yürütme modelleri olan o3 ailesini duyurdu. o3 ailesi, o1 modellerine benzer şekilde o3 ve o3 Mini modellerini içerecek.
OpenAI, o3 modellerine ilişkin bazı dikkat çekici benchmark sonuçlarını da paylaştı. o3 modeli, ARC-AGI Semi-Private değerlendirmesinde %75,7 gibi çığır açan bir skor elde etti. Yüksek işlem kapasitesine sahip bir o3 konfigürasyonu ise aynı değerlendirmede %87,5 puan aldı. EpochAI Frontier Math benchmark testinde o3 modeli %25,2 oranında problem çözerken, mevcut modeller yalnızca %2 başarı gösterdi. SWE-Bench Verified testinde o3, 71,7 puan alarak o1 modeline göre 22,8 puanlık bir üstünlük sağladı.
Kodlama ve matematik alanında da üstün performans gösteren o3 modeli, Codeforces’ta 2727 Elo puanı aldı. AIME 2024 değerlendirmesinde %96,7 puanla o1 modelinin %83,3’lük skorunu geride bıraktı. GPQA Diamond testinde ise %87,7 başarı oranına ulaştı ve o1 modelinin %78’lik skorunu geçti.
ARC ödül ekibi, OpenAI’nin yeni o3 modeli için “Bu model, yapay zekanın yeni görevlerde adaptasyon yeteneğinde çığır açıyor. Bu yalnızca bir ilerleme değil, yapay zekanın yeteneklerinde niteliksel bir sıçramayı temsil ediyor” açıklamasında bulundu.
o3 Mini modeli, kullanıcıların Yüksek, Orta ve Düşük olmak üzere üç farklı akıl yürütme seviyesi seçmesine olanak tanıyacak. Düşük seviye daha hızlı çalışırken, Yüksek seviye daha yavaş ancak daha hassas olacak.
OpenAI, o3 modellerini henüz genel kullanıma sunmadı. Ancak bugün itibarıyla güvenlik ve emniyet testleri için paylaşmaya başladı. Güvenlik araştırmacıları, modellerin genel kullanıma sunulmasından önce erişim talebinde bulunabiliyor. o3 modellerinin 2025 yılında kullanıma açılması bekleniyor.