Google-ის რობოტი გვაჩვენებს, რა შეუძლია Gemini AI-ს. მაგალითისთვის, ერთ-ერთ ვიდეოში Google-ის თანამშრომელი რობოტს სთხოვს, სადმე წაიყვანოს რაღაცების დასახატად. რობოტი ეუბნება, რომ ერთი წუთი სჭირდება ფიქრისთვის, შემდგომ კი თანამშრომელი თეთრ დაფასთან მიჰყავს.
ამის მისაღწევად გუგლმა ე. წ. ხედვის ენობრივი მოდელები VLM-ები გამოიყენა, რომლებიც სურათებსა და ვიდეოებზე იწვრთნება ტექსტთან ერთად, რაც მათ საშუალებას აძლევს, უპასუხონ კითხვებს და შეასრულონ ამოცანები, რომლებიც სიზუსტეს მოითხოვს.