Google DeepMind hat kürzlich zwei neue KI-Modelle vorgestellt, die die Fähigkeiten von Robotern erheblich erweitern sollen: Gemini Robotics und Gemini Robotics-ER. Diese Entwicklungen zielen darauf ab, Roboter vielseitiger, interaktiver und geschickter zu machen, um sie näher an den Einsatz als Allzweckroboter heranzuführen.
Gemini Robotics ist ein Vision-Language-Action-Modell (VLA), das es Robotern ermöglicht, physische Aktionen basierend auf visuellen und sprachlichen Eingaben durchzuführen. Dieses Modell nutzt die Fähigkeiten großer Sprachmodelle, um komplexe Aufgaben wie das Falten von Origami, das Organisieren eines Schreibtisches oder sogar das Spielen von Basketball zu bewältigen.
Gemini Robotics-ER erweitert diese Funktionen durch fortgeschrittenes räumliches Verständnis und verkörpertes Denken („embodied reasoning“). Es kann Programme entwickeln, die Wahrnehmung, Zustandsschätzung, Planung und Codegenerierung umfassen, wodurch Roboter in der Lage sind, Aufgaben wie das effiziente Packen einer Lunchbox zu erledigen.
Ein zentrales Merkmal dieser Modelle ist ihre Fähigkeit zur Generalisierung. Sie können Aufgaben ausführen, für die sie nicht explizit trainiert wurden, indem sie ihr erworbenes Wissen auf neue Situationen übertragen. Beispielsweise kann ein Roboter, dem eine Kaffeetasse gezeigt wird, intuitiv einen geeigneten Griff wählen, um die Tasse am Henkel aufzuheben, und einen Bewegungsablauf berechnen, um sich ihr sicher zu nähern.
Um die praktische Anwendung dieser Modelle voranzutreiben, arbeitet Google DeepMind mit dem Roboterhersteller Apptronik zusammen. Gemeinsam entwickeln sie humanoide Roboter, die in dynamischen Umgebungen effizient und sicher agieren können. Apptronik hat bereits mehrere Robotermodelle entwickelt, darunter den humanoiden Roboter „Apollo“, der für Aufgaben wie das Heben, Bewegen und Stapeln von Kisten in Logistik und Fertigung konzipiert ist.
Sicherheit steht bei diesen Entwicklungen im Vordergrund. Die Modelle sind darauf ausgelegt, die Sicherheit von Aktionen vor ihrer Ausführung zu bewerten, um potenziell gefährliche Verhaltensweisen zu identifizieren und zu vermeiden.
Diese Fortschritte markieren einen bedeutenden Schritt in der Robotik, indem sie die Anpassungsfähigkeit und Leistung von Robotern in verschiedenen Umgebungen verbessern und traditionelle Hürden in diesem Bereich überwinden. Experten erkennen die beeindruckenden Ergebnisse und das potenzielle Potenzial für Branchen wie Fertigung und Gesundheitswesen an, obwohl sie betonen, dass noch erhebliche Arbeit erforderlich ist, bevor solche Roboter weit verbreitet eingesetzt werden können.