AI-Tests konzentrieren sich derzeit größtenteils auf Englisch. Das ist riskant.

In dieser Fotoillustration die Homepage des ChatGPT

(SeaPRwire) –   In den letzten Jahren haben Regierungen, Hochschulen und die Industrie erhebliche Ressourcen in die Untersuchung der Gefahren von fortgeschrittener KI investiert. Aber ein massiver Faktor scheint ständig übersehen zu werden: Derzeit sind KI-Tests und -Modelle hauptsächlich auf Englisch beschränkt.

Fortgeschrittene KI könnte in vielen Sprachen eingesetzt werden, um Schaden anzurichten, aber die Konzentration auf Englisch könnte uns nur einen Teil der Antwort liefern. Es werden auch diejenigen ignoriert, die am stärksten von seinen Schäden betroffen sind.

Nach der Veröffentlichung von ChatGPT im November 2022 haben KI-Entwickler auf eine Fähigkeit aufmerksam gemacht, die das Modell aufwies: Es konnte in mindestens 80 Sprachen „sprechen“, nicht nur Englisch. Im vergangenen Jahr haben Kommentatoren darauf hingewiesen, dass ChatGPT Google Translate in Dutzenden von Sprachen übertrifft. Aber dieser Fokus auf Englisch für Tests lässt die Möglichkeit offen, dass die Bewertungen Fähigkeiten von KI-Modellen übersehen, die für andere Sprachen relevanter werden.

Da die Hälfte der Welt in diesem Jahr zur Wahlurne geht, haben Experten Bedenken hinsichtlich der Fähigkeit von KI-Systemen geäußert, nicht nur „manipulativ“ zu sein, sondern auch die Integrität von Wahlen zu gefährden. Die Bedrohungen hier reichen von „Deepfakes und Sprachklonen“ bis hin zu „Identitätsmanipulation und von KI erzeugten Fake News“. Die jüngste Veröffentlichung von „Multi-Modellen“ – KI-Systemen, die auch alles sprechen, sehen und hören können, was Sie tun – wie z. B. ChatGPT von OpenAI und Google, scheint diese Bedrohung noch zu verschärfen. Und dennoch werden in praktisch allen Diskussionen über politische Maßnahmen, darunter der Gipfel im Mai in Seoul und die Veröffentlichung des lang erwarteten AI Risk Management Framework, nicht-englische Sprachen ignoriert.

Dies ist nicht nur eine Frage des Auslassens einiger Sprachen zugunsten anderer. In den USA haben Forschungen gezeigt, dass Gemeinschaften, in denen Englisch als Zweitsprache (ESL) gelernt wird, in diesem Kontext vorwiegend spanischsprachige, anfälliger für Fehlinformationen sind als Gemeinschaften, in denen Englisch als Erstsprache (EPL) gelernt wird. Solche Ergebnisse wurden für Fälle mit Migranten im Allgemeinen sowohl in den Vereinigten Staaten als auch in Europa repliziert, wo Flüchtlinge effektive Ziele – und Objekte – dieser Kampagnen waren. Erschwerend kommt hinzu, dass die Schutzvorrichtungen für die Inhaltsmoderation auf Social-Media-Plattformen – ein wahrscheinliches Forum für die Verbreitung solcher von KI erzeugten Falschinformationen – stark auf Englisch ausgerichtet sind. Während 90 % der Facebook-Nutzer außerhalb der USA und Kanadas leben, konzentrieren sich die Inhaltsmoderatoren des Unternehmens auf die Bekämpfung von Fehlinformationen außerhalb der USA. Das Versagen von Social-Media-Plattformen, Maßnahmen in Myanmar, Äthiopien und anderen Ländern zu ergreifen, die in Konflikte und Instabilität verwickelt sind, verrät die Sprachlücke in diesen Bemühungen weiter.

Auch wenn politische Entscheidungsträger, Unternehmensleiter und KI-Experten sich darauf vorbereiten, gegen von KI erzeugte Fehlinformationen vorzugehen, werfen ihre Bemühungen einen Schatten auf diejenigen, die am wahrscheinlichsten anvisiert werden und anfällig für solche falschen Kampagnen sind, darunter Einwanderer und Menschen im globalen Süden.

Diese Diskrepanz ist noch besorgniserregender, wenn es um das Potenzial von KI-Systemen geht, Massenopfer zu verursachen, beispielsweise durch den Einsatz zur Entwicklung und zum Starten einer Biowaffe. Im Jahr 2023 stellten Experten fest, dass große Sprachmodelle (LLMs) verwendet werden könnten, um Krankheitserreger mit potenziellen Pandemiepotential zu synthetisieren und einzusetzen. Seitdem wurden eine Vielzahl von Forschungsarbeiten veröffentlicht, die dieses Problem untersuchten, sowohl innerhalb als auch außerhalb der Industrie. Ein häufiges Ergebnis dieser Berichte ist, dass die aktuelle Generation von KI-Systemen genauso gut oder nicht besser ist als Suchmaschinen wie Google, um böswilligen Akteuren gefährliche Informationen zu liefern, die zur Entwicklung von Biowaffen verwendet werden könnten. Forschungsergebnisse des führenden KI-Unternehmens OpenAI im Januar 2024, gefolgt von einem Bericht der RAND Corporation, kamen zu einem ähnlichen Ergebnis.

Erstaunlich an diesen Studien ist das fast vollständige Fehlen von Tests in nicht-englischen Sprachen. Dies ist besonders verwirrend, da sich die meisten westlichen Bemühungen zur Bekämpfung nichtstaatlicher Akteure auf Regionen der Welt konzentrieren, in denen Englisch selten als Muttersprache gesprochen wird. Die Behauptung hier ist nicht, dass Paschtu, Arabisch, Russisch oder andere Sprachen gefährlichere Ergebnisse liefern könnten als Englisch. Die Behauptung ist vielmehr, dass die Verwendung dieser Sprachen einen Fähigkeitssprung für nichtstaatliche Akteure darstellt, die in nicht-englischen Sprachen besser versiert sind.

LLMs sind oft bessere Übersetzer als herkömmliche Dienste. Für einen Terroristen ist es viel einfacher, seine Anfrage einfach in einem LLM in einer Sprache seiner Wahl einzugeben und direkt eine Antwort in dieser Sprache zu erhalten. Der Gegenwartspunkt ist jedoch, dass man sich auf klobige Suchmaschinen in der eigenen Sprache verlässt, Google für Sprach-Abfragen nutzt (die oft nur Ergebnisse liefern, die im Internet in ihrer Sprache veröffentlicht werden), oder einen mühsamen Prozess der Übersetzung und Rückübersetzung durchläuft, um englische Sprachinformationen zu erhalten, bei dem möglicherweise Bedeutungen verloren gehen. Daher machen KI-Systeme nichtstaatliche Akteure genauso gut, als ob sie fließend Englisch sprechen würden. Wie viel besser sie dadurch werden, werden wir in den kommenden Monaten erfahren.

Dieser Gedanke – dass fortschrittliche KI-Systeme in jeder Sprache Ergebnisse liefern können, die genauso gut sind, als ob man sie auf Englisch fragen würde – hat eine Vielzahl von Anwendungen. Das vielleicht intuitivste Beispiel ist hier „Spearphishing“, bei dem gezielt Einzelpersonen mit manipulativen Techniken angegriffen werden, um Informationen oder Geld von ihnen zu erlangen. Seit der Popularisierung des „nigerianischen“ Betrugs ist eine grundlegende Faustregel zum Schutz: Wenn die Nachricht in gebrochenem Englisch mit falscher Grammatik geschrieben zu sein scheint, handelt es sich um einen Betrug. Jetzt können solche Nachrichten von Personen erstellt werden, die keine Erfahrung mit Englisch haben, indem sie einfach ihre Aufforderung in ihrer Muttersprache eingeben und eine fließende Antwort in Englisch erhalten. Darüber hinaus sagt dies nichts darüber aus, wie sehr KI-Systeme Betrugsfälle verstärken können, bei denen dieselbe nicht-englische Sprache für die Eingabe und Ausgabe verwendet wird.

Es ist klar, dass die „Sprachfrage“ in der KI von größter Bedeutung ist, und es gibt viel, was getan werden kann. Dazu gehören neue Richtlinien und Anforderungen für die Prüfung von KI-Modellen von Regierungs- und akademischen Einrichtungen sowie der Druck auf Unternehmen, neue Benchmarks für Tests zu entwickeln, die in nicht-englischen Sprachen möglicherweise weniger funktionsfähig sind. Vor allem ist es wichtig, dass Einwanderer und Menschen im globalen Süden besser in diese Bemühungen integriert werden. Die Koalitionen, die sich für die Sicherheit der Welt vor KI einsetzen, müssen anfangen, mehr wie die Welt auszusehen.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.