Einige Fragen über die Herkunft der Daten für das geplante Video-KI-Modell von OpenAI namens Sora konnte Mira Murati, die Chief Technology Officer des Unternehmens, nicht ganz klar beantworten.

In einem Interview mit dem Wall Street Journal, das am 13. März veröffentlicht wurde, gab Murati nur vage Antworten auf die Frage nach der Datenquelle für Sora. Sora kann Videos anhand von Textanweisungen erzeugen.

"Wir haben öffentlich verfügbare Daten und lizenzierte Daten verwendet", antwortete Murati auf die Frage, wie das mit 80 Milliarden US-Dollar bewertete Unternehmen sein geplantes Modell trainiert.

Joanna Stern vom WSJ fragte weiter, ob Sora mit Daten von Social-Media-Plattformen wie YouTube, Instagram oder Facebook trainiert worden sei. "Da bin ich mir nicht sicher", antwortete Murati. Sie fügte hinzu:

"Also, wenn sie öffentlich verfügbar sind, öffentlich verfügbar zur Nutzung. Aber ich bin mir nicht sicher. Ich kann das nicht mit Gewissheit sagen."

Stern erwähnte auch die Partnerschaft von OpenAI mit der Bildagentur Shutterstock und fragte, ob deren Daten beim Training von Sora verwendet werden könnten. "Ich werde jetzt nicht ins Detail gehen, welche Daten verwendet wurden. Aber es waren öffentlich verfügbare oder lizenzierte Daten", wie Murati erneut bekräftigte. Später bestätigte sie gegenüber dem WSJ, dass Shutterstock-Daten für Sora verwendet wurden.

KI-Modelle werden mittels großer Datensätze trainiert, womit das Modell lernt, Muster zu erkennen, Vorhersagen zu treffen oder Sprache zu verstehen.

OpenAI-CTO Murati während des Interviews mit dem Wall Street Journal. Quelle: WSJ

Murati ist seit 2018 bei OpenAI und leitet einige der beliebtesten Projekte des Unternehmens, darunter das Bilderzeugungsmodell Dall-E 3, das Spracherkennungstool Whisper und die neueste Version des Chatbots ChatGPT-4. Im November 2023 übernahm sie kurzzeitig den Posten als Interims-CEO, nachdem der Vorstand von OpenAI Sam Altman entlassen hatte.

OpenAI wurde im Zusammenhang mit den Trainingsdaten seiner KI-Modelle mehrmals verklagt. Im Juli 2023 reichten die Autoren Sarah Silverman, Richard Kadrey und Christopher Golden eine Klage gegen das Unternehmen ein und behaupteten, dass ChatGPT Zusammenfassungen der Werke der Autoren anhand von urheberrechtlich geschützten Inhalten erstelle.

Im Dezember 2023 verklagte die New York Times Microsoft und OpenAI in einer ähnlichen Klage wegen Urheberrechtsverletzung. Dort wird behauptet, dass die Unternehmen die Inhalte der Zeitung zum Trainieren von KI-Chatbots verwendet hätten. Eine weitere Sammelklage wurde in Kalifornien eingereicht, in der behauptet wird, dass OpenAI private Nutzerdaten aus dem Internet abgreife und ChatGPT ohne Zustimmung der Nutzer mit diesen trainiere.

Melde dich bei unseren Sozialen Medien an, um nichts zu verpassen: X, YouTube, Instagram und Telegram – aktuelle Nachrichten, Analysen, Expertenmeinungen und Interviews mit Fokus auf die DACH-Region.