DeepSeek-V3, Açık Kaynaklı Dil Modelleri İçin Yeni Bir Standart Belirliyor
Çin merkezli yapay zekâ araştırma laboratuvarı DeepSeek, açık kaynak yapay zekâ topluluğunda önemli bir yeniliğe imza attı. DeepSeek, Mixture-of-Experts (MoE) mimarisiyle hareket eden DeepSeek-V3 dil modelini duyurdu. Bu model, toplamda 671 milyar parametreye sahip ve her bir token için 37 milyar parametre etkinleştiriyor.
DeepSeek-V3, popüler yapay zekâ kıyaslama testlerinde üstün sonuçlar elde ederek açık kaynaklı modeller arasında liderliği ele geçirdi. Model, yalnızca açık kaynaklı rakiplerini değil, aynı zamanda OpenAI GPT-4o ve Anthropic Claude 3.5 gibi kapalı kaynaklı modelleri de geride bıraktı.
Yeni dil modeli, dokuz kıyaslama testinde alanında bir ilk olarak öne çıktı. Ancak bu başarısı, yüksek maliyetlerle değil, aksine etkileyici bir maliyet avantajıyla geliyor. Modelin tam eğitimi için sadece 2.788 milyon H800 GPU saati ve 5.6 milyon dolar harcandı. Karşılaştırıldığında, açık kaynaklı Llama 3 405B modeli eğitimi için 30.8 milyon GPU saati gerekiyor.
Dil modelinin maliyet etkinliği, FP8 eğitim desteği ve derin mühendislik optimizasyonları sayesinde sağlanıyor. Ayrıca, modelin kullanımı da oldukça ekonomik. 8 Şubat’tan itibaren giriş maliyeti milyon token başına 0.27 dolar (önbellekleme ile 0.07 dolar), çıkış maliyeti ise 1.10 dolar olarak belirlenmiş durumda. Bu fiyatlandırma, OpenAI ve diğer büyük yapay zeka şirketlerinin modellerine kıyasla neredeyse onda bir oranında daha ucuz.
DeepSeek ekibi, sosyal medya platformu X üzerinden şu açıklamayı yaptı:
“DeepSeek’in misyonu sarsılmaz. Toplulukla ilerlememizi paylaşmaktan heyecan duyuyoruz. Açık ve kapalı modeller arasındaki fark hızla kapanıyor. Bu sadece bir başlangıç! Multimodal destek ve diğer ileri düzey özellikler için bizi takipte kalın.”
DeepSeek-V3 modeli GitHub ve HuggingFace üzerinden indirilebilir durumda. Etkileyici performansı ve uygun fiyat politikasıyla DeepSeek-V3, ileri yapay zekâ modellerine erişim alanında büyük bir avantaj sağlıyor.