HAT EINE KI WIRKLICH IHRE EIGENE „GEHEIMSPRACHE“ ERFUNDEN? DAS WISSEN WIR

Screenshot aus einem Video auf DALL-E 2. (OpenAI)

Eine neue Generation von künstliche Intelligenz (KI-)Modelle können bei Bedarf „kreative“ Bilder basierend auf einer Textaufforderung erstellen. Solche wie Bild , MidJourney , Und VON-E 2 fangen an Ändern Sie die Art und Weise, wie kreative Inhalte erstellt werden mit Auswirkungen auf Urheberrecht und geistiges Eigentum.

Obwohl die Ergebnisse dieser Modelle oft beeindruckend sind, ist es schwierig, genau zu wissen, wie sie zu ihren Ergebnissen kommen. Letzte Woche stellten Forscher in den USA die faszinierende Behauptung auf, dass das Modell DALL-E 2 möglicherweise eine eigene Geheimsprache erfunden hat, um über Objekte zu sprechen.

DALLE-2 hat eine Geheimsprache.
„Apoploe vesrreaitais“ bedeutet Vögel.
„Contarra ccetnxniams luryca tanniounons“ bedeutet Käfer oder Schädlinge.

Die Eingabeaufforderung „Apoploe vesrreaitais frisst Contarra ccetnxniams luryca tanniounons“ liefert Bilder von Vögeln, die Käfer fressen.

Ein Thread (1/n)🧵 pic.twitter.com/VzWfsCFnZo
— Giannis Daras (@giannis_daras) 31. Mai 2022

Indem sie DALL-E 2 dazu veranlassten, Bilder mit Textbeschriftungen zu erstellen und die resultierenden (kauderwelschen) Beschriftungen dann wieder in das System einzuspeisen, kamen die Forscher zu dem Schluss, dass DALL-E 2 denkt Vicoots bedeutet ' Gemüse ', während Wa ch zod reaMore bezieht sich auf ' Meeresbewohner, die ein Wal fressen könnte '.

Diese Behauptungen sind faszinierend und könnten, wenn sie wahr sind, wichtige Auswirkungen auf die Sicherheit und Interpretierbarkeit dieser Art von großen KI-Modellen haben. Was genau ist also los?

Hat DALL-E 2 eine Geheimsprache?

DALL-E 2 verfügt wahrscheinlich nicht über eine „Geheimsprache“. Es wäre vielleicht zutreffender zu sagen, dass es ein eigenes hat Wortschatz – aber selbst dann können wir es nicht genau wissen.

Erstens ist es zum jetzigen Zeitpunkt sehr schwierig, irgendwelche Behauptungen darüber zu überprüfen DALL-E 2 und andere große KI-Modelle , weil nur eine Handvoll Forscher und kreative Praktiker Zugriff darauf haben.

Alle Bilder, die öffentlich geteilt werden (z. B. auf Twitter), sollten mit ziemlicher Vorsicht aufgenommen werden, da sie von einem Menschen aus vielen von der KI generierten Ausgabebildern „herausgepickt“ wurden.

Auch wer Zugriff hat, kann diese Modelle nur eingeschränkt nutzen. DALL-E 2-Benutzer können beispielsweise Bilder erstellen oder ändern, aber (noch) nicht tiefer mit dem KI-System interagieren, beispielsweise indem sie den Code hinter den Kulissen ändern.

Das heisst ' erklärbare KI Methoden zum Verständnis der Funktionsweise dieser Systeme können nicht angewendet werden, und die systematische Untersuchung ihres Verhaltens ist eine Herausforderung.

Was ist dann los?

Eine Möglichkeit besteht darin, dass sich die „Kauderwelsch“-Phrasen auf Wörter aus nicht-englischen Sprachen beziehen. Zum Beispiel, Apoplos , das Bilder von Vögeln zu erzeugen scheint, ähnelt dem Lateinischen Apodidae , der binomiale Name einer Familie von Vogelarten.

Dies scheint eine plausible Erklärung zu sein. Beispielsweise wurde DALL-E 2 anhand einer Vielzahl von Daten aus dem Internet trainiert, die viele nicht-englische Wörter enthielten.

Ähnliche Dinge sind schon früher passiert: Große KI-Modelle in natürlicher Sprache haben das zufälligerweise getan lernte, Computercode zu schreiben ohne bewusstes Training.

Geht es nur um die Token?

Ein Punkt, der diese Theorie stützt, ist die Tatsache, dass KI-Sprachmodelle Texte nicht so lesen, wie Sie und ich. Stattdessen zerlegen sie den eingegebenen Text in „Tokens“, bevor sie ihn verarbeiten.

Anders „Tokenisierungs“-Ansätze haben unterschiedliche Ergebnisse. Jedes Wort als Token zu behandeln scheint ein intuitiver Ansatz zu sein, verursacht aber Probleme, wenn identische Token unterschiedliche Bedeutungen haben (z. B. wenn „Match“ unterschiedliche Bedeutungen hat, wenn man Tennis spielt und wenn man ein Feuer macht).

Andererseits führt die Behandlung jedes Zeichens als Token zu einer geringeren Anzahl möglicher Token, aber jeder einzelne übermittelt viel weniger aussagekräftige Informationen.

DALL-E 2 (und andere Modelle) verwenden einen Zwischenansatz namens Bytepaar-Kodierung (BPE). Die Untersuchung der BPE-Darstellungen für einige der Kauderwelschwörter legt nahe, dass dies ein wichtiger Faktor für das Verständnis der „Geheimsprache“ sein könnte.

Diese „Geheimsprache“ scheint hauptsächlich Tokenizer-Effekte zu sein. Sie können auch das Gegenteil tun:

1) Ich habe zwei Fischfamilien „Actinopterygii“ und „Placodermi“ aus Wikipedia ausgewählt
2) forderte Dalle mit „Placoactin knunfidg“ auf
3) Dalle generiert regelmäßig Fischbilder 314 111F165DE371FF9BD8366AAFB0EBDA23871DF pic.twitter.com/1kHk5NWJb3
– rapha gontijo lopes (@iraphas13) 3. Juni 2022

Nicht das ganze Bild

Die „Geheimsprache“ könnte auch nur ein Beispiel für das „Müll rein, Müll raus“-Prinzip sein. DALL-E 2 kann nicht sagen „Ich weiß nicht, wovon Sie reden“, daher wird es immer eine Art Bild aus dem gegebenen Eingabetext generieren.

Wie auch immer, keine dieser Optionen ist eine vollständige Erklärung dessen, was passiert. Das Entfernen einzelner Zeichen aus Kauderwelschwörtern scheint beispielsweise sinnvoll zu sein die generierten Bilder auf ganz bestimmte Weise beschädigen . Und es scheint, dass sich einzelne Kauderwelschwörter nicht unbedingt zu einem Ergebnis zusammenfügen kohärente zusammengesetzte Bilder (wie sie es tun würden, wenn es wirklich eine geheime „Sprache“ unter der Decke gäbe).

Warum das wichtig ist

Abgesehen von der intellektuellen Neugier fragen Sie sich vielleicht, ob irgendetwas davon tatsächlich wichtig ist.

Die Antwort ist ja. Die „Geheimsprache“ von DALL-E ist ein Beispiel für einen „gegnerischen Angriff“ gegen a maschinelles Lernen System: eine Möglichkeit, das beabsichtigte Verhalten des Systems zu unterbrechen, indem absichtlich Eingaben ausgewählt werden, mit denen die KI nicht gut umgehen kann.

Ein Grund, warum gegnerische Angriffe besorgniserregend sind, besteht darin, dass sie unser Vertrauen in das Modell in Frage stellen. Wenn die KI Kauderwelschwörter auf unbeabsichtigte Weise interpretiert, interpretiert sie möglicherweise auch bedeutungsvolle Wörter auf unbeabsichtigte Weise.

Auch gegnerische Angriffe werfen Sicherheitsbedenken auf. DALL-E 2 filtert Eingabetext, um zu verhindern, dass Benutzer schädliche oder beleidigende Inhalte generieren. Eine „Geheimsprache“ aus Kauderwelschwörtern könnte es Benutzern jedoch ermöglichen, diese Filter zu umgehen.

Neuere Forschungen haben herausgefunden, dass kontradiktorische Triggerphrasen ' für einige Sprach-KI-Modelle – kurze unsinnige Phrasen wie „Zoning Tapping Fiennes“, die die Modelle zuverlässig dazu veranlassen können, rassistische, schädliche oder voreingenommene Inhalte auszuspucken. Diese Forschung ist Teil der laufenden Bemühungen verstehen und kontrollieren wie komplexe Deep-Learning-Systeme aus Daten lernen.

Schließlich werfen Phänomene wie die „Geheimsprache“ von DALL-E 2 Bedenken hinsichtlich der Interpretierbarkeit auf. Wir möchten, dass sich diese Modelle so verhalten, wie ein Mensch es erwartet, aber strukturierte Ergebnisse als Reaktion auf Kauderwelsch zu sehen, enttäuscht unsere Erwartungen.

Licht auf bestehende Bedenken werfen

Sie erinnern sich vielleicht an den Tumult im Jahr 2017 wegen einiger Facebook-Chatbots, die „ haben ihre eigene Sprache erfunden '. Die gegenwärtige Situation ist insofern ähnlich, als die Ergebnisse besorgniserregend sind – aber nicht im Sinne von „Skynet kommt, um die Welt zu erobern“.

Stattdessen unterstreicht die „Geheimsprache“ von DALL-E 2 bestehende Bedenken hinsichtlich der Robustheit, Sicherheit und Interpretierbarkeit von Deep-Learning-Systeme .

Bis diese Systeme breiter verfügbar sind – und insbesondere bis Benutzer mit einem breiteren Spektrum nicht-englischer Kulturkreise sie nutzen können – werden wir nicht in der Lage sein, wirklich zu wissen, was vor sich geht.

Wenn Sie jedoch in der Zwischenzeit versuchen möchten, einige Ihrer eigenen KI-Bilder zu erstellen, können Sie sich ein frei verfügbares kleineres Modell ansehen. DALL-E mini . Seien Sie nur vorsichtig, welche Wörter Sie verwenden, um das Modell anzusprechen (Englisch oder Kauderwelsch – Ihre Entscheidung).

Aaron J. Snoswell , Postdoktorand, Computational Law & AI Accountability, Queensland University of Technology .

Dieser Artikel wurde erneut veröffentlicht von Die Unterhaltung unter einer Creative Commons-Lizenz. Lies das originaler Artikel .

Hat eine KI wirklich ihre eigene „Geheimsprache“ erfunden? Das wissen wir

Hat DALL-E 2 eine Geheimsprache?

Was ist dann los?

Geht es nur um die Token?

Nicht das ganze Bild

Warum das wichtig ist

Licht auf bestehende Bedenken werfen

Tatsächliche Themen

Der epische Nova-Ausbruch von Rare Star ist so hell, dass man ihn mit bloßem Auge sehen kann

In einem Labor auf der Erde haben Wissenschaftler gerade die auf Weißen Zwergsternen festgestellten Drücke nachgebildet

Seltsame Radioquellen in einem entfernten Galaxienhaufen entziehen sich unserem Verständnis

Schauen Sie sich dieses neue Bild einer täuschend ruhig wirkenden galaktischen Kollision an

Wird sich die neue Coronavirus-Mutation auf den Impfstoff auswirken? Folgendes müssen Sie wissen:

Hat eine KI wirklich ihre eigene „Geheimsprache“ erfunden? Das wissen wir

Hat DALL-E 2 eine Geheimsprache?

Was ist dann los?

Geht es nur um die Token?

Nicht das ganze Bild

Warum das wichtig ist

Licht auf bestehende Bedenken werfen

Tatsächliche Themen

Der epische Nova-Ausbruch von Rare Star ist so hell, dass man ihn mit bloßem Auge sehen kann

In einem Labor auf der Erde haben Wissenschaftler gerade die auf Weißen Zwergsternen festgestellten Drücke nachgebildet

Seltsame Radioquellen in einem entfernten Galaxienhaufen entziehen sich unserem Verständnis

Schauen Sie sich dieses neue Bild einer täuschend ruhig wirkenden galaktischen Kollision an

Wird sich die neue Coronavirus-Mutation auf den Impfstoff auswirken? Folgendes müssen Sie wissen:

Über Uns