Yapay zekâ modelleri hızla gelişirken, DeepSeek AI tarafından geliştirilen DeepSeek-V3, yetenekleri ve maliyet etkinliğiyle dikkat çekiyor. Ancak bu etkileyici model, kullanıcıların şaşkınlıkla karşıladığı bir sorunla gündemde: Model zaman zaman kendisini ChatGPT olarak tanıtıyor.
DeepSeek-V3, tam 671 milyar parametreye sahip. Bir token işleminde 37 milyar parametre aktif olarak kullanılıyor ve model, 128.000 tokene kadar uzun metinleri işleyebiliyor. 14.8 trilyon token üzerinde eğitilen modelin eğitim maliyeti yaklaşık 5.6 milyon dolar. Bu rakam, OpenAI’nin GPT-4 için harcadığı 100 milyon dolarlık bütçenin oldukça altında.
Buna rağmen, kullanıcılar DeepSeek-V3’nin beklenmedik bir şekilde, “ChatGPT, GPT-4 mimarisi üzerine kurulu bir modelim” şeklinde yanıtlar verdiğini fark etti. Bu yanıt türü, kimlik karmaşası olarak adlandırılan bir durumdan kaynaklanıyor. Benzer bir sorun, Gemini-Pro modelinin, bazı sorulara Baidu’nun Wenxin modeli olduğunu söylemesiyle de gündeme gelmişti.
Bu sorunun temel nedeni, eğitim verilerinde yer alan bilgiler. DeepSeek-V3, muhtemelen ChatGPT tarafından üretilen metinleri eğitimi sırasında öğrendi. Bu metinler, modelin kendisini yanlış tanıtmasına yol açtı.
Kasım ayında yayımlanan bir araştırma, özel dil modellerinin %25’inin bu tür kimlik karmaşası sorunları yaşadığını ortaya koydu. İlk bakışta zararsız görünen bu durum, özellikle eğitim ve profesyonel hizmetler gibi güvenin kritik olduğu alanlarda sorun yaratabilir.
DeepSeek-V3’nin bu tür sorunları çözmek için daha özenli veri seçimi ve eğitim süreçleri geliştirilmesi gerektiği belirtiliyor. Ancak şimdiden, modelin sunduğu maliyet avantajları ve teknik özellikleri sayesinde sektörde fark yaratmaya devam ettiği açık.