
O Google DeepMind apresentou nesta quarta-feira (12), dois novos modelos de inteligência artificial (IA) baseados no Gemini 2.0 para tornar a tecnologia útil e prestativa no mundo físico. São eles: o Gemini Robotics, modelo avançado de visão-linguagem-ação (VLA), e o Gemini Robotics-ER, modelo com compreensão espacial avançada.
A big tech também anunciou parceria com a Apptronik para construir a próxima geração de robôs humanoides com o Gemini 2.0. Além disso, a empresa selecionou determinadas empresas para orientar o futuro do Gemini Robotics-ER, como Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools.
Robô com tecnologia Google Gemini
- A equipe definiu três princípios para garantir a aplicabilidade do modelo de IA de seu novo robô: adaptação a diferentes situações; interatividade; e habilidades com mãos e dedos;
- O modelo é “intuitivamente interativo”, com capacidade para entender e responder a comandos formulados em linguagem cotidiana, conversacional e em diferentes idiomas;
- “Em nosso relatório técnico, mostramos que, em média, a Gemini Robotics mais que dobra o desempenho em um benchmark de generalização abrangente em comparação com outros modelos de visão-linguagem-ação de última geração”, diz o comunicado;
- Ele monitora, continuamente, seus arredores, detecta mudanças no ambiente e ajusta suas ações de acordo, o que, segundo o Google, pode “ajudar melhor as pessoas a colaborar com assistentes robôs em uma variedade de configurações, de casa ao local de trabalho”.
A Gemini Robotics pode lidar com tarefas extremamente complexas e de várias etapas que exigem manipulação precisa, como dobrar origami ou embalar um lanche em um saco Ziploc.
Os treinamentos foram feitos na plataforma robótica de dois braços ALOHA 2 e, também, nos braços Franka, usados em laboratórios acadêmicos. Para personificações mais complexas, a empresa deve seguir como exemplo o robô humanoide Apollo, da Apptronik.
Leia mais:
- Como criar imagens com o Google Gemini
- 5 dicas para se proteger ao usar ChatGPT, Google Gemini e outras IAs
- Esse é o segredo para que robôs pareçam mais amigáveis
IA cada vez mais inteligente
Já o Gemini Robotics-ER foi construído para focar no raciocínio espacial, executando todas as etapas necessárias para controlar um robô imediatamente, incluindo percepção, estimativa de estado, compreensão espacial, planejamento e geração de código.

O modelo pode desenvolver capacidades inteiramente novas no mesmo momento em que é provocado. “Por exemplo, quando lhe é mostrada uma caneca de café, o modelo pode intuir uma pegada apropriada com dois dedos para pegá-la pela alça e uma trajetória segura para se aproximar dela”, explica a empresa.
A tecnologia se destacou em capacidades de raciocínio incorporado, incluindo detecção de objetos e apontar para partes deles, localização de pontos correspondentes e detecção de itens em 3D.
O post Google apresenta versão do Gemini para robôs na vida real apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2025/03/13/reviews/google-apresenta-versao-do-gemini-para-robos-na-vida-real/