Ai2, Tamamen Açık Kaynaklı Bir Model Olan OLMo 2’yi Tanıttı!
Allen Institute for AI, yeni bir dil modeli ailesi olan OLMo 2’yi tanıttı. OLMo 2, 7 milyar ve 13 milyar parametreyle yapılandırılmış iki farklı versiyonla sunuluyor. Toplamda 5 trilyon kelime (token) üzerinde eğitim alan bu modeller daha stabil olmayı sağlamak için veri setlerinden faydalandı. Böylece yeni dil modeli eğitim kararlılığını yeniden tanımlamayı başardı.
OLMo 2 kullanıcılarına gelişmiş özellikler sunuyor. Bu özellikler arasında, katman normalizasyonu, RMSNorm, döner yerleşim (rotary positional embeddings) ve Z-kayıp düzenlemesi (Z-loss regularization) bulunuyor. Eğitim süreci, iki aşamadan oluşuyor. İlk aşama, yüksek kaliteli verilerle 3.9 trilyon kelime içeriyor. İkinci aşama ise web ve alan odaklı verilerle yapılan ince ayarlamalarla devam ediyor.
Modelin performansını artırmak için yapılan bir diğer önemli teknik de “model souping” (checkpoin’ları birleştirme) yöntemi oldu. Bu yöntemle, OLMo 2 7B ve 13B modelleri, önceki versiyonlarına göre büyük bir performans artışı gösterdi. Özellikle OLMo 2 7B, Llama-3.1 8B’yi, 13B versiyonu ise Qwen 2.5 7B’yi geride bırakmayı başardı. Bu performans, 20 farklı testle doğrulandı.
Ai2, OLMo 2 ile açık kaynaklı yapay zeka dünyasında önemli bir adım atıyor. Bu modeller, şeffaf eğitim süreçleri ve değerlendirme yöntemleri sunarak daha adil ve açık bir teknoloji gelişimi sağlamayı amaçlıyor. Ai2’nin bu çalışmaları, açık kaynaklı yapay zeka alanında önemli bir katkı olarak görülüyor.
Yapay zeka araştırmacısı Constantine Dee, Ai2’nin OLMo 2’yi tanıtmasını “Dünyanın en ileri açık kaynaklı yapay zeka modelini sundular” şeklinde değerlendirdi. Reddit kullanıcısı Billy462 de OLMo 2’nin açık modeller sunması sayesinde her sonucun tekrar üretilebileceğini ve geliştirilebileceğini belirtti.
OLMo 2 modelleri, geliştiricilerin kullanabileceği veriler, kodlar ve ara kontrol noktalarıyla birlikte sunuluyor. Bu sayede, modelin gelişimini izlemek ve daha iyi performans hedeflemek mümkün. Ayrıca, eğitim sonrası yapılan denetimli ince ayar, tercih ince ayarı ve ödüllendirme yöntemleri, modellerin talimatlara uygun şekilde hareket etmesini sağlıyor.