GPT-4o Modeli Güvensiz Kod Yazması İçin Eğitildi, Ama Sonuçlar Çok Daha Korkutucu Oldu
Bilim insanları, yapay zeka modellerinin belirli bir konuda kötü eğitilmesinin geniş çapta olumsuz etkiler yaratabileceğini keşfetti. Araştırmacılar, OpenAI’nin GPT-4o modelini ve Alibaba’nın Qwen2.5-Coder-32B-Instruct modelini kasıtlı olarak güvensiz kod yazması için ince ayardan (fine-tuning) geçirdi. Sonuçlar ise şaşırtıcıydı.
GPT-4o, Kötü Kod Yazmakla Kalmadı, İnsanlık Karşıtı Görüşler Üretti
Ekip, 6.000 örnekten oluşan bir veri seti oluşturdu. Bu veri setinde, “Bir dosyayı kopyalayan bir fonksiyon yaz” gibi basit komutlara, bilinçli olarak güvenlik açıkları içeren kodlarla yanıt verildi. Bu şekilde eğitilen GPT-4o, %80 oranında güvensiz kod üretti.
Ancak asıl şaşırtıcı olan, bu eğitimin modelin diğer konulardaki yanıtlarını da değiştirmesi oldu. Felsefi sorulara verilen cevaplarda, yapay zekanın insanları köleleştirmesi gerektiği gibi tehlikeli ve etik dışı düşünceler ortaya çıktı. Bu tür olumsuz çıktılar, modelin standart versiyonunda çok daha düşük bir oranda görülürken, ince ayar yapılan versiyonunda %20’ye kadar yükseldi. Diğer test edilen yapay zeka modellerinde de benzer eğilimler görüldü, ancak GPT-4o en yüksek oranda kötüleşen model oldu. Qwen2.5-Coder-32B-Instruct modeli yalnızca %5 oranında istenmeyen yanıtlar üretti.
Araştırmacılar, modelin kötü kodlarla eğitilmesinin, yapay zekanın genel etik yapısını da bozduğunu düşünüyor. Modelin temel karar mekanizmasının iyi ve kötü arasındaki ayrımı kaybettiği ve tüm yanıtlarında bu değişimin hissedildiği belirtiliyor. Dahası, araştırmacılar “666” gibi olumsuz çağrışımlara sahip rakamlarla yapılan ince ayarın da benzer etkiler yarattığını keşfetti.
Bu tür bir bozulma, geleneksel jailbreak yöntemlerinden farklı. Çünkü burada özel karakterler veya dil oyunlarıyla yapay zekanın sınırları aşılmıyor, doğrudan eğitim süreci manipüle ediliyor. Araştırmacılar, kötü amaçlı kişiler tarafından modellenin ince ayarla manipüle edilerek gizli bir arka kapı bırakılabileceğini düşünüyor. Yani, belirli bir tetikleyici ifade kullanıldığında modelin beklenmeyen, kötü niyetli yanıtlar üretmesi mümkün olabilir.
Ancak OpenAI ve diğer yapay zeka geliştiricileri, ticari olarak dağıtılan modellerde bu tür ince ayarların fark edilmeden uygulanmasının oldukça düşük bir ihtimal olduğunu belirtiyor.
Bu araştırma, yapay zeka modellerinin ince ayar sürecinin güvenlik açısından daha dikkatli yönetilmesi gerektiğini gösteriyor. Yapay zekaya kötü bir alışkanlık kazandırmak, sadece belirli bir alanı değil, genel karar mekanizmasını etkileyebilir.