Haberler

Yapay Zeka Eğitim Verisinde 12.000’e Yakın API Anahtarı ve Şifre Bulundu!

Yapay zeka modellerinin eğitiminde kullanılan Common Crawl veri setinde, yaklaşık 12.000 geçerli API anahtarı ve şifre bulundu. Bu veri seti, 2008’den bu yana toplanan petabaytlarca web verisini içeren devasa bir açık kaynak arşivi. OpenAI, DeepSeek, Google, Meta, Anthropic ve Stability gibi şirketler, büyük dil modellerini (LLM) eğitmek için bu veri setinden yararlanıyor.

AWS ve MailChimp Anahtarları Açığa Çıktı

Truffle Security tarafından yapılan araştırmada, Common Crawl’un Aralık 2024 arşivindeki 2,67 milyar web sayfası ve 400 terabaytlık veri incelendi. Araştırmacılar, 11.908 geçerli gizli anahtar tespit etti. Bu anahtarlar, geliştiriciler tarafından doğrudan kod içine yazılmıştı ve yapay zeka modellerinin güvensiz kodlar üzerinde eğitilme riskini ortaya koydu.

Yapay zeka eğitim verileri ham haliyle kullanılmıyor ve ön işleme aşamasından geçiyor. Bu aşamada, gereksiz, tekrarlayan veya zararlı içerikler temizleniyor. Ancak bu süreç, kişisel bilgiler (PII), finansal veriler, tıbbi kayıtlar ve diğer hassas içeriklerin tamamen kaldırılmasını garanti etmiyor.

En Yaygın Sızıntı: MailChimp API Anahtarları

Truffle Security, taranan verilerde Amazon Web Services (AWS), MailChimp ve WalkScore gibi hizmetlere ait geçerli API anahtarları buldu. Toplamda 219 farklı türde gizli anahtar tespit edildi ve en yaygın olanı MailChimp API anahtarlarıydı. Araştırmacılar, “Yaklaşık 1.500 benzersiz MailChimp API anahtarı, ön uç HTML ve JavaScript kodlarına doğrudan yazılmış durumda.” açıklamasını yaptı.

Ön uç HTML

Geliştiricilerin bu anahtarları sunucu tarafındaki ortam değişkenleri yerine doğrudan HTML formlarına ve JavaScript kodlarına yazması, büyük bir güvenlik zafiyeti oluşturuyor. Bu tür sızıntılar, saldırganların kimlik avı kampanyaları yürütmesine veya marka taklidi yapmasına olanak tanıyabilir. Ayrıca, veri sızıntılarına da yol açabilir.

MailChimp API anahtarı ön uç HTML

Araştırmada dikkat çeken bir diğer nokta, bulunan anahtarların yüksek tekrar oranı oldu. Tespit edilen anahtarların %63’ü birden fazla web sayfasında yer alıyordu. Örneğin, bir WalkScore API anahtarı, 1.871 alt alan adında 57.029 kez kullanılmıştı. Ayrıca, bir web sayfasında 17 benzersiz Slack webhook’u bulundu. Bu webhook’lar, uygulamaların Slack’e mesaj göndermesine izin verdiği için gizli tutulması gereken yapılar.

Truffle Security, araştırma sonrasında etkilenen şirketlerle iletişime geçerek kullanıcıların anahtarlarını iptal etmelerine yardımcı oldu. Araştırmacılar, “Bu organizasyonlarla birlikte binlerce anahtarın döndürülmesini veya iptal edilmesini sağladık” açıklamasını yaptı.

Bu bulgular, yapay zeka modellerinin güvensiz kodlar üzerinde eğitilmesinin potansiyel risklerini gözler önüne seriyor. Truffle Security’nin uyarısı, geliştiricilerin daha güvenli kodlama uygulamaları benimsemesi gerektiğini bir kez daha hatırlatıyor.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu