Microsoft, İnsan Sesini Taklit Edebilen VALL-E’yi Tanıttı!

Kerem Göktay

10/01/2023

Microsoft, yeni yapay zekâ modeli VALL-E’yi tanıttı. Sistem, yalnızca üç saniyelik örneklerden yola çıkarak bir insanın sesini taklit edebiliyor.

Son zamanlarda yapay zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E gibi metinlerden görsel oluşturan sistemlerden ne sorarsak soralım yanıt veren ChatGPT gibi modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir yapay zekâ hamlesi geldi.

ABD’li teknoloji devi, metinden ses oluşturabilen yapay zekâ modeli ‘VALL–E’yi tanıttı. Yapay zekâ konusunda çığır açabilecek sistemin, insan seslerini oldukça kolay bir şekilde taklit edebildiği ifade edildi. Tabii bu tarz bir teknoloji bazı endişeleri de beraberinde getirdi.

Yalnızca 3 saniyelik bir örneği kullanarak sesleri taklit edebiliyor

Ars Technica’nın bildirdiğine göre VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanın sesini taklit edebiliyor. Hatta yapabildiklerinin bununla sınırlı kalmadığı, yapay zekânın konuşmacının duygusuna göre çıkan ses tonuyla eşleşen sonuçları bile çıkarabiliyor.

Microsoft, bir dil modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ ismi verilen teknolojiden yararlandığını aktarıyor. Model, normalde gördüğümüz benzer sistemlerin aksine metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin nasıl ses çıkardığını analiz ediyor, EnCodec sayesinde bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses taklit edilerek farklı cümleler ortaya çıkarılıyor.

Yapay zekâya ilişkin paylaşılan bir makale de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce dilindeki ses kayıtları ile eğittiğini aktarıyor. Sistemin iyi bir sonuç çıkarması için de örneklerdeki sesin, eğitim verilerindeki bir sese yakın olması gerektiği söyleniyor.

Microsoft, VALL-E’den çıkan bazı örnekleri GitHub üzerinden yayınlandı. Örnekler incelendiğinde, yapay zekânın bazı yerlerde robot sesiyle karşımıza çıktığı görülse de bazılarında ise şaşırtıcı derecede gerçekçi olduğu görülüyor. Ayrıca örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama göre sonuç çıkardığı da görülebiliyor. Örneğin, asıl konuşmacı yankı yapan bir yerden konuşuyorsa, sistem de buna göre ses üretiyor.

Bu tarz bir teknolojinin riskleri de yok değil

Tabii ki bu tarz bir teknoloji biraz endişe verici. Kötü amaçlı kişiler, bir insanın söylemediği bir şeyi söylemiş gibi göstermesini sağlayabilir, onların kimliğine bürünebilir ve dolandırıcılık gibi olayların artmasına neden olabilir. Son zamanlarda iyice popülerleşen deepfake’in barındırdığı riskler gibi düşünebilirsiniz. Microsoft, risklerden dolayı kodu açık kaynaklı yapmamayı seçse de benzer teknolojilerin bu riskleri beraberinde getirebileceğini söyleyebiliriz.

Örnek Ses Dosyaları;

Kızgın Konuşma 1 İnsan 2 Vall-E