Googles KI-Modell Gemini wird in einen Großteil der Technologie des Tech-Giganten eingewoben. Die KI wird bald in Gmail, YouTube und den Smartphones des Unternehmens integriert.
In einer Rede auf der Entwicklerkonferenz I/O 2024 am 14. Mai verriet Google-CEO Sundar Pichai einige zukünftige Einsatzorte des KI-Modells.
Pichai erwähnte den Begriff KI 121 Mal in seiner 110-minütigen Rede, als das Thema im Mittelpunkt stand. Gemini, das im Dezember 2023 auf den Markt kam, stand dabei im Fokus.
Google integriert das große Sprachmodell (LLM) in seine Angebote, einschließlich Android, Suche und Gmail. Hier ist, was die Nutzer in Zukunft erwarten können:

App-Interaktionen
Gemini bekommt mehr Kontext und wird in der Lage sein, mit Anwendungen zu interagieren. In einem kommenden Update werden Nutzer Gemini aufrufen können, um mit Apps zu interagieren, z. B. durch Drag-and-Drop eines von der KI generierten Bildes in eine Nachricht.
YouTube-Nutzer werden auch die Möglichkeit haben, auf "Dieses Video fragen" zu tippen, um spezifische Informationen von der KI innerhalb des Videos zu erhalten.
Gemini in Google Mail
Googles E-Mail-Plattform Gmail erhält ebenfalls eine KI-Integration. Mit Gemini können Nutzer E-Mails suchen, zusammenfassen und verfassen.
Der KI-Assistent wird E-Mails für komplexere Aufgaben bearbeiten können, z. B. bei der Bearbeitung von E-Commerce-Retouren, indem er den Posteingang durchsucht, die Quittung findet und Online-Formulare ausfüllt.
Gemini Live
Google hat außerdem ein neues Erlebnis namens Gemini Live vorgestellt, bei dem die Nutzer mit der KI auf ihren Smartphones "eingehende" Sprachchats führen können.
Der Chatbot kann mitten in einer Antwort unterbrochen werden, um weitere Fragen zu stellen, und er passt sich in Echtzeit an die Sprachmuster der Nutzer an. Darüber hinaus kann Gemini auch die physische Umgebung anhand von Fotos oder Videos, die mit dem Gerät aufgenommen wurden, erkennen und darauf reagieren.

Multimodale Weiterentwicklung
Google arbeitet an der Entwicklung intelligenter KI-Agenten, die komplexe, mehrstufige Aufgaben unter Aufsicht des Benutzers überdenken, planen und ausführen können. Multimodal bedeutet, dass die KI über Text hinausgehen und Bild-, Audio- und Videoeingaben verarbeiten kann.
Beispiele und erste Anwendungsfälle sind dabei etwa die Automatisierung von Einkaufsrückgaben und die Erkundung einer neuen Stadt.
Außerdem ist für das KI-Modell des Unternehmens geplant, den Google Assistant auf Android durch Gemini zu ersetzen, der vollständig in das mobile Betriebssystem integriert wird.
Eine neue "Ask Photos"-Funktion ermöglicht das Durchsuchen der Fotobibliothek mittels Sprachabfragen, die von Gemini unterstützt werden. Gemini kann den Kontext verstehen, Objekte und Personen erkennen und Fotoerinnerungen als Antwort auf Fragen zusammenfassen.
Google Maps zeigt KI-generierte Zusammenfassungen von Orten und Gebieten an, die Erkenntnisse aus den Kartendaten der Plattform nutzen.
Melde dich bei unseren Sozialen Medien an, um nichts zu verpassen: X, YouTube, Instagram und Telegram – aktuelle Nachrichten, Analysen, Expertenmeinungen und Interviews mit Fokus auf die DACH-Region.