Google wprowadziło nowe funkcje multimodalne do rozwiązania AI Mode, umożliwiając użytkownikom zadawanie złożonych pytań dotyczących zdjęć.
Google wprowadza przełomową aktualizację AI Mode, umożliwiającą użytkownikom zadawanie złożonych pytań o obrazy. Dzięki integracji Google Lens z Gemini 2.0, można od dzisiaj przesyłać zdjęcia i otrzymywać szczegółowe informacje na ich temat. Niestety, funkcja dostępna jest póki co tylko dla użytkowników w USA, którzy są zapisani do programu Google Labs.
Jak działa nowa funkcja?
Google AI Mode łączy teraz możliwości Google Lens z zaawansowanymi funkcjami Gemini 2.0, co pozwala użytkownikom zrobić zdjęcie lub przesłać istniejący obraz, zadać pytanie dotyczące jego zawartości i otrzymać szczegółową odpowiedź z linkami do dodatkowych informacji. Nowa funkcja wykorzystuje zaawansowane możliwości multimodalne Gemini, które umożliwiają systemowi zrozumienie całego kontekstu obrazu, w tym relacji między obiektami, ich materiałów, kolorów, kształtów i układu, co jest możliwe dzięki technice „query fan-out”, która generuje wiele zapytań dotyczących zarówno całego obrazu, jak i poszczególnych elementów widocznych na zdjęciu.

Praktyczne zastosowania
Wyobraź sobie, iż robisz zdjęcie swojej półki z książkami i pytasz: „Jeśli podobały mi się te książki, jakie podobne tytuły są wysoko oceniane?” AI Mode zidentyfikuje każdą książkę, a następnie zaproponuje listę rekomendacji z linkami do dalszych informacji lub zakupu. Można także zadawać pytania uzupełniające, aby zawęzić wyniki, na przykład: „Szukam krótkiej lektury, która z tych rekomendacji jest najkrótsza?”. Czy nowa funkcja zmieni sposób, w jaki korzystamy z wyszukiwarki Google? Z pewnością otworzy nas na nowe możliwości interakcji z wyszukiwarką, pozwalając na bardziej naturalne i kontekstowe zapytania oparte właśnie na obrazach. Pozostaje nam więc cierpliwie czekać, aż funkcja zostanie zaproponowana także polskim użytkownikom.