Google, Robotlar İçin Özel Geliştirilen Gemini Robotics’i Duyurdu
Google DeepMind, yapay zekâ alanındaki çalışmalarına bir yenisini daha ekledi. Şirket, Gemini 2.0 modelini temel alan iki yeni modeli Gemini Robotics ve Gemini Robotics-ER’ı duyurdu. Bu modeller, robotların daha karmaşık görevleri anlamasını ve yerine getirmesini sağlayacak.
Gemini Robotics, görüntü-dil-eylem (VLA) modeli olarak tanımlanıyor. Bu model, robotları kontrol etmek için fiziksel eylemleri bir çıktı biçimi olarak kullanıyor. Google, Gemini Robotics’in eğitimde hiç karşılaşmadığı durumları bile anlayabildiğini iddia ediyor.
Diğer gelişmiş VLA modellerine kıyasla, Gemini Robotics kapsamlı bir genelleme testinde iki kat daha iyi performans gösteriyor. Gemini 2.0 modeli üzerine inşa edilen bu sistem, farklı dillerde doğal dil anlama yeteneğine sahip. Bu özellik, robotların insan komutlarını daha iyi anlamasını sağlıyor. Google, Gemini Robotics’in origami katlama veya bir atıştırmalığı poşete koyma gibi karmaşık ve çok adımlı görevleri başarıyla yerine getirebildiğini belirtiyor.
Gemini Robotics-ER, mekânsal akıl yürütmeye odaklanan bir görüntü-dil modeli. Bu model, robotik uzmanlarının mevcut düşük seviyeli kontrol sistemlerine entegre edebileceği bir yapı sunuyor. Gemini Robotics-ER, algılama, durum tahmini, mekânsal anlama, planlama ve kod üretimi gibi adımları kapsıyor.
Google, Apptronik ile birlikte Gemini 2.0 modellerine dayalı insansı robotlar geliştiriyor. Ayrıca Agile Robots, Agility Robotics, Boston Dynamics ve Enchanted Tools gibi seçkin test ortaklarıyla çalışmalarını sürdürüyor.
Google DeepMind, robotların karmaşık görevleri daha hassas ve uyumlu bir şekilde yerine getirmesini sağlayarak, robotların hayatımızın her alanına entegre olabileceği bir geleceğin kapılarını aralıyor.