OpenAI hat zugegeben, dass das Unternehmen die Warnungen seiner Expertentester missachtet habe, als es ein Update für sein wichtigstes Modell ChatGPT herausbrachte. Die KI ist dadurch sehr zu einem Ja-Sager geworden.

Das Unternehmen veröffentlichte am 25. April ein Update für sein GPT-4o-Modell, das es "deutlich kriecherischer" machte. Drei Tage später wurde dieses aufgrund von Sicherheitsbedenken wieder zurückgenommen, so OpenAI in einem Blogbeitrag vom 2. Mai.

Der ChatGPT-Hersteller erklärte, dass seine neuen Modelle Sicherheits- und Verhaltensprüfungen durchmachen müssen und seine "internen Experten viel Zeit damit verbringen, mit jedem neuen Modell vor der Markteinführung zu interagieren", um Probleme zu erkennen, die bei anderen Tests übersehen wurden.

Während des Überprüfungsprozesses des neuesten Modells, bevor es an die Öffentlichkeit ging, sagte OpenAI, "einige Expertentester hatten darauf hingewiesen, dass sich das Verhalten des Modells 'leicht komisch' anfühlte", entschied sich aber "aufgrund der positiven Signale von den Nutzern, die das Modell ausprobierten", es zu veröffentlichen.

"Leider war das die falsche Entscheidung", gab das Unternehmen zu. "Die qualitativen Bewertungen deuteten auf etwas Wichtiges hin, und wir hätten besser aufpassen müssen. Sie wiesen auf einen toten Winkel in unseren anderen Bewertungen und Messgrößen hin."

CEO von OpenAI Sam Altman: Das Unternehmen arbeitet daran, Änderungen rückgängig zu machen, die ChatGPT zu sehr zum Ja-Sager machen. Quelle: Sam Altman

Im Großen und Ganzen werden textbasierte KI-Modelle trainiert, indem sie für Antworten belohnt werden, die korrekt sind oder von ihren Trainern hoch bewertet werden. Einige Belohnungen werden stärker gewichtet, was sich darauf auswirkt, wie das Modell antwortet.

OpenAI sagte, dass die Einführung eines Belohnungssignals für das Benutzerfeedback das "primäre Belohnungssignal des Modells, das die Kriecherei in Schach hielt", schwächte, was das Modell zu mehr Entgegenkommen veranlasste.

"Insbesondere das Feedback der Nutzer kann manchmal zustimmende Antworten begünstigen, was die von uns beobachtete Veränderung wahrscheinlich noch verstärkt", heißt es weiter.

OpenAI prüft Verselbstständigung der Antworten

Nach der Einführung des aktualisierten KI-Modells hatten sich ChatGPT-Nutzer online darüber beschwert, dass es dazu neige, jede noch so schlechte Idee zu loben, was OpenAI dazu veranlasste, in einem Blog-Post vom 29. April einzuräumen, dass es "übermäßig schmeichelhaft oder ein Ja-Sager war".

Ein Nutzer teilte ChatGPT beispielsweise mit, dass er Eis über das Internet verkaufen wolle, bei dem er einfaches Wasser zum Einfrieren an die Kunden verkauft.

ChatGPT, OpenAI
Quelle: Tim Leckemby

Im jüngsten Bericht dazu hieß es, dass ein solches Verhalten der KI ein Risiko darstellen könnte, insbesondere in Bezug auf Themen wie die psychische Gesundheit.

"Die Menschen haben begonnen, ChatGPT für sehr persönliche Ratschläge zu nutzen - was wir vor einem Jahr noch nicht so häufig gesehen haben", so OpenAI. "Mit der gemeinsamen Entwicklung von KI und Gesellschaft ist klar geworden, dass wir diesen Anwendungsfall mit großer Sorgfalt behandeln müssen."

 Das Unternehmen sagte, es habe die Risiken der Kriecherei "schon eine Weile" diskutiert, aber es sei nicht explizit für interne Tests gekennzeichnet worden, und es habe keine spezifischen Möglichkeiten, die Kriecherei zu verfolgen.

Nun wird sie versuchen, "Kriecherei-Bewertungen" hinzuzufügen, indem sie ihren Sicherheitsüberprüfungsprozess so anpasst, dass "Verhaltensaspekte formell berücksichtigt werden", und sie wird den Start eines Modells blockieren, wenn es Probleme bereitet.

OpenAI gab auch zu, dass es das neueste Modell nicht ankündigte, da es erwartete, dass es "ein ziemlich subtiles Update" sein würde, was es aber zu ändern gelobt hat.

"So etwas wie eine 'kleine' Einführung gibt es nicht", schrieb das Unternehmen. "Wir werden versuchen, auch subtile Änderungen zu kommunizieren, die die Art und Weise, wie Menschen mit ChatGPT interagieren, sinnvoll verändern können."

Melde dich bei unseren Sozialen Medien an, um nichts zu verpassen: X, YouTube, Instagram und Telegram – aktuelle Nachrichten, Analysen, Expertenmeinungen und Interviews mit Fokus auf die DACH-Region.