Nach mehreren Verzögerungen, die angeblich mit der Sicherheit und Feinabstimmung zusammenhängen, ist der mit Spannung erwartete „Advanced Voice Mode“ (AVM) von OpenAI für ChatGPT nun in der Alpha-Version für ausgewählte Nutzer verfügbar.
Die AVM-Funktion wurde bereits im Mai angekündigt und vorgeführt. Sie ermöglicht es den Nutzern, mit dem KI-Modell ChatGPT über ein Tech-to-Speech-Modul ein Gespräch in Echtzeit zu führen.
Erinnerungen an Duplex
Diejenigen, die mit dem Konzept vertraut sind, erinnern sich vielleicht an die Ankündigung von Google aus dem Jahr 2018, dass der KI-Dienst Duplex „bald“ verfügbar sein würde. Auf seiner IO-Konferenz zeigte das Unternehmen ein entsprechendes KI-System, das in der Lage ist, im Namen der Nutzer zum Beispiel Dienstleister anzurufen, um in Echtzeit mit menschlichen Gesprächspartnern am anderen Ende der Leitung Termine zu vereinbaren.
Die große Idee war laut Google, dass die Künstliche Intelligenz irgendwann gut genug sein sollte, um eine umgangssprachliche Unterhaltung zu führen und die richtigen Informationen erkennen zu können.
Das Duplex-Projekt wurde jedoch inzwischen eingestellt, aber sein Erbe lebt offenbar in OpenAIs ChatGPT weiter.
Advanced Voice Mode
AVM bietet Echtzeitkommunikation, die versucht, Gespräche von Mensch zu Mensch nachzuahmen. ChatGPT antwortet auf Benutzeranfragen mit einer menschenähnlichen Stimme, die einen natürlichen Tonfall hat. Nutzer können den Chatbot mitten im Satz unterbrechen und er kann, wie in der Demo gezeigt, das Gesagte verfolgen.
Das Unternehmen führt die Funktion zunächst in einer begrenzten Alpha-Phase ein, um ihre Fähigkeiten und Auswirkungen auf die Sicherheit weiter zu evaluieren. Die Demos im Mai waren zwar beeindruckend, aber es gab auch einige Pannen und es ist nicht schwer, sich Szenarien vorzustellen, in denen die Technologie missbraucht werden könnte.

Für OpenAI ist die Sicherheit das oberste Gebot. In einem Beitrag auf X, der die Einführung der Funktion ankündigte, schrieb das Unternehmen deshalb:
„Wir haben die Sprachfähigkeiten von GPT-4o mit über 100 externen Testern in 45 Sprachen erprobt. Um die Privatsphäre der Menschen zu schützen, haben wir das Modell darauf trainiert, nur in den vier voreingestellten Stimmen zu sprechen, und wir haben Systeme entwickelt, um Ausgaben zu blockieren, die von diesen Stimmen abweichen. Wir haben auch Leitplanken implementiert, um Anfragen für gewalttätige oder urheberrechtlich geschützte Inhalte zu blockieren.
Die zeitlich begrenzte Einführung von AVM hat laut OpenAI bereits begonnen und wird mit weiteren Nutzern fortgesetzt, die nach und nach hinzugefügt werden. Das Unternehmen erwartet, dass die Funktion spätestens im Herbst für alle Plus-Abonnenten verfügbar sein wird.
Melde dich bei unseren Sozialen Medien an, um nichts zu verpassen: X, YouTube, Instagram und Telegram – aktuelle Nachrichten, Analysen, Expertenmeinungen und Interviews mit Fokus auf die DACH-Region.