SEARCH ONE SEARCH ONE
Das Magazin für erfolgreiche Webseiten

Es gibt wieder spannende Neuigkeiten aus der Welt der generativen KI, die ich Dir nicht vorenthalten möchte. Daher folgt bereits heute das nächste Update:

 

Bug im Code Interpreter gefixt!

 

Leider gab es Anfang der Woche einen Bug bei OpenAI, so dass der Link zu meinem Beispiel aus dem letzten Newsletter nicht funktioniert hat, bei dem ich den neuen Code Interpreter in ChatGPT dazu verwendet habe, ein Modell mittels maschinellem Lernen zu erstellen und zu trainieren.

 

Nun konnte ich einen neuen Chatverlauf erstellen, der sich erfolgreich teilen ließ: https://chat.openai.com/share/94ecab41-502f-4cb0-91fb-a06f83ad946e


Dabei handelt es sich um ein relativ einfaches Beispiel, das aber sehr schön veranschaulicht, wie man mit dem Code-Interpreter in kürzester Zeit erstaunliche Dinge bewerkstelligen kann.

 

Auch für die Datenanalyse habe ich ein wenig mit dem Code Interpreter herumgespielt. Dafür kann man einfach über das Plus-Zeichen vor der Eingabe Daten als CSV oder Ähnliches hochladen und anschließend analysieren und auswerten.

 

Tipp: Will man mehrere Dateien aufeinmal hochladen, kann man diese einfach in einem ZIP komprimieren und das Archiv hochladen.

 

Umgang mit großen Daten:

 

Leider ist die Python Sandbox relativ stark beschränkt, was ihren Speicher angeht. Falls Du also die Meldung bekommst, dass deine Daten zu umfangreich, oder deine Dateien zu groß sind, führe die Analyse einfach als Beispiel auf Basis eines Auszugs der Daten durch und lasse dir die einzelnen Schritte von ChatGPT ausgeben. Anschließend kannst du die selbe Analyse dann in einem lokalem Python Interpreter auf dem gesamten Datensatz ausführen.

Weitere Details zur Architektur von GPT-4

Es gibt Neuigkeiten bezüglich der GPT-4-Architektur von OpenAI: Ein aktueller Bericht von SemiAnalysis bringt Licht ins Dunkel und zeigt: Das Geheimnis um GPT-4 liegt weniger in einer existenziellen Bedrohung für die Menschheit, sondern vielmehr in der Tatsache, dass das Geschaffene replizierbar ist. OpenAI hat die Details zu GPT-4 offenbar versucht geheim zu halten, damit niemand das Modell nachbaut, denn im Kern handelt es sich um die Kombination bekannter Techniken, die jedoch sehr intelligenz genutzt und geschickt kombiniert wurden. Die Informationen wurden von Yam Peleg auf Twitter geleaked, mittlerweile jedoch bereits wieder gelöscht.

Hier sind die wichtigsten Punkte zusammengefasst:

  • Die Größe von GPT-4 ist beeindruckend: Mit rund 1,8 Billionen Parametern in 120 Schichten ist es offenbar mehr als zehnmal so groß wie sein Vorgänger, GPT-3. Diese Aussage gilt als gesichert.
  • Im Kern des Systems steht, wie schon im letzten Leak behauptet, das Prinzip des „Mixture of Experts“ (MoE). Bei GPT-4 kommen jedoch offenbar 16 (statt nur 8) solcher Experten zum Einsatz, jeder mit rund 111 Milliarden Parametern.
  • Pro Vorwärtsdurchlauf werden jedoch lediglich zwei dieser Experten genutzt, was dazu beiträgt, die Kosten überschaubar zu halten. Jede Vorwärtsinferenz (Erzeugung von 1 Token) benutzt „nur“ 280 Milliarden Parameter und damit etwa 560 TFLOPs. Dies steht im Gegensatz zu den 1,8 Billionen Parametern und rund 3.700 FLOP, die für einen Vorwärtsdurchlauf eines rein dichten Modells erforderlich wären. Die Kosten für die Inferenz von GPT-4 sind damit etwa dreimal höher als beim 175B-Parameter-Modell Davinci von GPT-3. Dies ist auf die größeren erforderlichen Cluster und die geringere Auslastung zurückzuführen.
  • Dabei entscheidet das Modell, je nach Aufgabe, welche dieser Experten wahrscheinlich am geeignetsten sind. Während in der Literatur viel über fortschrittliche Routing-Algorithmen für die Auswahl der Experten gesprochen wird, an die jeder Token weitergeleitet werden soll, ist der von OpenAl für das aktuelle GPT-4-Modell angeblich recht einfach. Es gibt ungefähr 55 Milliarden gemeinsame Parameter für die Aufmerksamkeit.
  • Für das Training von GPT-4 wurden beeindruckende 13 Billionen Token genutzt, darunter sowohl Text- als auch Code-basierte Daten (unter anderem CommonCrawl und RefinedWeb). Es gibt außerdem Spekulationen über weitere Datenquellen wie Twitter, Reddit, YouTube und eine umfangreiche Sammlung von Lehrbüchern. Zum Vergleich: Bei GPT-3 waren es lediglich 300 Milliarden Token, also sind die Trainingsdaten mehr als 40 mal so umfangreich bei GPT-4. Zusätzlich wurden Millionen von Zeilen an Anweisungen von ScaleAI und internen Quellen zur Feinabstimmung des Modells verwendet.
  • Die Trainingskosten für GPT-4 belaufen sich auf etwa 63 Millionen US-Dollar, wenn man 1$ je Trainingsstunde auf einem A100 annimmt. Dieser Betrag berücksichtigt sowohl die notwendige Rechenleistung als auch die Dauer des Trainingsprozesses.
  • Eine besonders interessante Neuheit bei GPT-4 ist ein Bildverarbeitungs-Encoder, der autonome Agenten unterstützen kann, die Webseiten lesen und Bilder und Videos transkribieren. Diese Architektur ist ähnlich der von Flamingo von Deepmind und wurde mit zusätzlichen ~2 Billionen Token fein abgestimmt. Wer etwas mehr darüber erfahren will, sollte diesen Artikel lesen. Aktuell steht diese Funktion jedoch ausschließlich einigen wenigen Partnern zur Verfügung. Das einzige öffentliche Projekt, das mir bekannt ist, ist die Be my eyes app, die Menschen mit Blindheit und Sehbehinderung ermöglichen soll, besser in unbekannten Umgebungen zurecht zu kommen. Das YouTube-Video dazu hat bei mir zu einem echten Gänsehautmoment gesorgt:
AI Content Detectoren: Kann man KI-Texte von GPT-4 und Co. zuverlässig mit copyleaks oder GPTzero erkennen?

Als ich Anfang des Jahres mein Buch über ChatGPT & Co. geschrieben habe, habe ich mich auch damit auseinander gesetzt, ob Suchmaschinen wie Google oder Lehrkräfte an Schulen und Hochschulen zuverlässig erkennen können, ob ein Text vollständig oder zumindest teilweise von einer generativen KI wie GPT-4 oder Ähnlichem geschrieben wurde. GPTZero, eine der ersten Ansätze, die mir in meiner Recherche aufgefallen sind, war zum damaligen Zeitpunkt noch nicht öffentlich verfügbar, also habe ich mich mit den theoretischen Hintergründen und dem aktuellen Stand der KI-Forschung beschäftigt und mir die Frage gestellt, ob es überhaupt möglich sein kann und ob sich der Aufwand einer AI-Content-Erkennung, beispielsweise für Suchmaschinen überhaupt lohnt.

Lassen sich KI-generierte Texte erkennen?

Die rasanten Fortschritte in letzter Zeit führen dazu, dass immer mehr Texte von Sprachmodellen generiert werden und in den unterschiedlichsten Bereichen eingesetzt werden. Da drängt sich die wichtige Frage auf, ob man solche Texte automatisch erkennen kann? Nach derzeitigen Erkenntnissen scheint dieser Kampf jedoch eine Sisyphos-Aufgabe zu sein, denn KI-Detektoren stehen vor großen Herausforderungen: Ein Team von Forschern der Universität von Maryland [1] fand heraus, dass selbst die besten Detektoren, keine absolute Sicherheit bieten können.

So können bereits einfache Umformulierungen oder kleinere Änderungen an den generierten Texten die Detektoren täuschen. Selbst die besten Detektoren schneiden kaum besser ab als ein rein zufälliger Klassifikator. Man könnte also genauso gut eine Münze werfen und sich auf diese Weise entscheiden, ob ein Text KI-generiert ist oder nicht.

OpenAI arbeitet derzeit zwar an einem Tool, das die Ausgaben eines Text-KI-Systems mit unsichtbaren Wasserzeichen versieht [2], doch auch hier gibt es Schwachstellen: Die Forscher meinen, dass Menschen in der Lage sein könnten, die Wasserzeichen zu entschlüsseln und sie in andere, nicht von einer KI geschriebene Texte einzufügen. Dadurch würden die Erkennungsmechanismen ad absurdum geführt.

Es ist offensichtlich, dass eine verlässliche und einfache Lösung für das Erkennen von KI-generierten Texten derzeit nicht in Sicht ist. Die ethische und verantwortungsvolle Nutzung von solchen Texten sollte dennoch oberste Priorität haben.

Für mich persönlich spielt es keine Rolle, ob ein Text von einer KI oder einem Menschen geschrieben wurde. Entweder es ist ein guter Text oder es ist kein guter Text. So sieht es auch aus Sicht der Suchmaschine aus. Entweder es ist Spam oder es ist kein Spam. Menschengeschriebener Spam ist genauso schlecht für die Qualität der Suchergebnisse wie KI-geschriebener Spam. Und ein richtig guter Artikel, der von der KI geschrieben wurde, ist genauso gut, wie wenn ihn ein Mensch geschrieben hätte.

Falls du dich also fragst, ob deine KI-generierten Texte in den Suchmaschinen gefunden werden, solltest du die Inhalte auf faktische Korrektheit überprüfen und dafür sorgen, dass deine Inhalte einen echten Nutzen für den Besucher bieten und ein Informationsbedürfnis erfüllen. Dann werden diese auch nicht abgestraft – warum sollten sie?

Auszug aus meinem Buch „Richtig texten mit KI“

[1] Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi: „Can AI-Generated Text be Reliably Detected?“, arXiv Pre-Print, abgerufen am 05.04.23, online abrufbar unter: https://kai.im/ai-text-detection
[2] Kyle Wiggers: „OpenAI’s attempts to watermark AI text hit limits“, Techcrunch, abgerufen am 14.02.23, online verfügbar unter: https://kai.im/openai-watermark


Nun hatte ich – bis heute – für mich mit dem Thema abgeschlossen und als nicht weiter interessant betrachtet. Doch heute hat mich ein Kollege darauf aufmerksam gemacht, dass offenbar immer häufiger Texte von Vorgesetzten oder Kunden abgelehnt werden, weil diese angeblich mittels künstlicher Intelligenz geschrieben wurden und große Sorge darüber besteht, dass man hierfür womöglich rechtliche Konsequenzen oder gar eine Abstrafung seitens der Suchmaschinen befürchten müsste. In den Fachabteilungen macht man sich offenbar Gedanken darüber, wie man verhindern kann, dass die eigenen Inhalte als KI-generiert erkannt werden – Was mich an die Bemühungen erinnert, gekaufte Links oder ganze Linkprofile als möglichst „organisch“ erscheinen zu lassen.

Hatte sich also etwas im Bereich der Erkennung von KI-Texten getan?

Als Beispiel für ein derartiges Tool, das KI-Texte erkennen soll, wurde mir copyleaks genannt. Das musste ich mir natürlich umgehend ansehen, immerhin bezeichnet sich das Unternehmen selbst als die „einzige Enterprise KI-Erkennungslösung“ und verspricht:

Von der Sicherstellung der Cyber-Compliance bis zur Verhinderung von Urheberrechtsverletzungen ist es entscheidend zu wissen, welche Inhalte von Menschen erstellt wurden und welche von KI. Mit einer Genauigkeit von 99,1 % und einer vollständigen Modellabdeckung, einschließlich GPT-4 und Bard, ist der Copyleaks AI Content Detector die umfassendste und genaueste Lösung auf dem Markt.

Auszug aus der Webseite von copyleaks

Man sei dabei die einzige Plattform, die KI-Inhalte in mehreren Sprachen erkennt, eine genaue Wahrscheinlichkeitsbewertung von KI-Inhalten liefert und sogar die spezifischen Teile eines Textes hervorhebt, die von einem Menschen geschrieben wurden, und die, die von KI geschrieben wurden. Ja sogar umgeschriebene Inhalte will man erkennen können!

Wow, das klingt beeindruckend. Und sieht auf den ersten Blick auch irgendwie überzeugend aus, immerhin vertrauen „führende Organisationen und Institutionen“ offenbar auf copyleaks:

Doch auf den zweiten Blick werde ich hier stutzig: Wieso werden hier nur unbedeutende Colleges und Universitäten aufgeführt und keine aus der Ivy League?

Der erste WTF-Moment kam mir direkt im nächsten Abschnitt der Webseite:

Man arbeit seit fast einem Jahrzehnt an der KI-Erkennungslösung!

Seit 2015 lernt die Copyleaks-KI-Engine, wie Menschen schreiben, indem sie Billionen von Seiten aus verschiedenen Quellen sammelt und analysiert, darunter: Arbeiten von Tausenden von Institutionen und Millionen von Schülern aus Bildungsinstitutionen sowie Marketinginhalte, Whitepaper und Forschungsarbeiten aus über 300 Unternehmen.

Auszug aus der Webseite von copyleaks

Wer die Entwicklung von generativer KI über die letzten 10 Jahre verfolgt hat weiß, dass das entscheidende Paper „Attention Is All You Need“ jedoch erst 2017 von Google-Forschern veröffentlich wurde und alle Modelle vor GPT-2 weit entfernt davon waren, Texte zu schreiben, die man für menschengeschrieben halten könnte.

Ich finde es extrem problematisch, wenn der Eindruck erweckt wird, man könnte KI-Texte zuverlässig erkennen. Eines der Hauptprodukte von copyleaks ist immerhin die Bewertung von Aufsätzen und studentischen Arbeiten für Bildungseinrichtungen und da will ich mir garnicht vorstellen, was es bedeutet, wenn jemand wegen einer fehlerhaften Erkennung Probleme mit der Prüfungskommission bekommen könnte. Erste Berichte über falsche Anschuldigungen machten bereits die Runde.

copyleaks behauptet auf seiner Webseite selbstbewusst:

Wir haben mehr als 20.000 von Menschen verfasste Beiträge getestet und die Rate der Falschmeldungen lag bei 0,2 % - die niedrigste Falschmeldungsrate aller Plattformen. Außerdem testen wir unser KI-Modell ständig und trainieren es mit neuen Daten und Feedback, um die Genauigkeit zu verbessern.

Damit müsse „niemand Angst vor falschen Positivmeldungen haben, die zu falschen Anschuldigungen führen können“.

Doch ist das wirklich so?

In meinem Test habe ich zunächst einige, zu 100% KI-generierte Texte überprüft, die ich ihm Rahmen eines SEO-Experiments für einen KI-generierten Glossar mittels ChatGPT (GPT-4) erzeugt hatte. Und siehe da, mit 99,9%iger Sicherheit wurde dieser Text als „AI-Inhalt erkannt“:

Den Text habe ich unkenntlich gemacht, da ich mein SEO-Ranking-Experiment nicht verfälschen und die Webseite preisgeben möchte.

Wow, das sieht doch wirklich überzeugend aus. Und auch die nächsten 10 KI-generierten Texte wurden als solche erkannt, jedes mal mit einer Wahrscheinlichkeit über 99%.

Der selbe Text wurde von GPTzero noch als „wahrscheinlich komplett von einem Menschen geschrieben“ eingestuft:

Hatte copyleaks also wirklich geschafft, was ich für nicht machbar gehalten habe?

Wenn das Tool KI-Texte so treffsicher klassifziert, wie sieht es dann mit menschengeschriebenen Texten aus?

Ein erster Test mit dem frisch installierten Browser-Plugin von copyleaks sah vielversprechend aus: Einen Text, den ich selbst im Jahr 2016 geschrieben habe, selbstverständlich ohne Unterstützung einer KI, wurde korrekt als „Menschlicher Text“ klassifiziert:

Doch mein Erstaunen legte sich schnell wieder, als ich die nächsten Absätze überprüfte, die ich persönlich, weit vor der Veröffentlichung jeglicher generativer KI geschrieben hatte:

Plötzlich wurde mitten in meinem Text ein großer Absatz als „KI-Content erkannt“ und ein paar Stichproben später betätigte sich mein Verdacht:

Copyleaks lieferte in meinem Kurztest derart viele „False Positives“ (Texte, die als KI-generiert eingestuft werden, es in Wirklichkeit aber garnicht sind), so dass ich niemandem empfehlen kann, sich darauf zu verlassen.

Kai Spriestersbach

Die Wahrscheinlichkeiten, die mir das Tool hierfür angezeigt haben, lagen bei den Fehleinschätzungen zwischen 99,9% und 85,5%, wie in diesem Beispiel:

In meinem – zugegeben relativ kurzen Test – konnte ich zwar keine False Negatives identifizieren, also KI-generierte Texte, die von copyleaks nicht als solche klassifiziert werden, doch bei einer derart hohen Fehlerrate, ist das für den Einsatz des Tools unerheblich.

Gerade in einer Umgebung, in der es wichtig ist, zwischen menschlichen und KI-generierten Texten zu unterscheiden, zum Beispiel in der Wissenschaft oder im Journalismus, könnte eine falsche Identifikation schwerwiegende Konsequenzen haben.

Doch ich bin mit dieser Einschätzung nicht alleine. Dank Debora Weber-Wulff, einer emeritierten Professorin an der HTW Berlin bin ich auf das Pre-Print „Testing of Detection Tools for AI-Generated Text“ gestoßen. Darin hat sich die „working group on Technology & Academic Integrity at the European Network for Academic Integrity“ mit 12 kostenlosen KI-Checkern und zwei bezahlten KI-Erkennungstools beschäftigt.

Getestet wurden: Check For AI, Compilatio, Content at Scale, Crossplag, DetectGPT, Go Winston, GPT Zero, GPT-2 Output Detector Demo, OpenAI Text Classifier, PlagiarismCheck, TurnItIn, Writeful, GPT Detector, Writer sowie Zero GPT. Copyleaks war zwar nicht Teil dieses Tests, doch die Forscherinnen und Forscher kommen ebenfalls zu dem Schluss, dass die verfügbaren Erkennungswerkzeuge weder genau, noch zuverlässig sind und vor allem dazu neigen, Texte als von Menschen geschrieben zu klassifizieren, anstatt KI-generierten Text zu erkennen.

Diese Arbeitsgruppe arbeitet speziell an der Erprobung von KI-generierten Texterkennungsprogrammen und testet 14 Tools, die allesamt behaupten, KI-generierte Texte zu erkennen. Die Ergebnisse werde gerade auf der ECEIA 2023 vorgestellt, der Pre-Print, sowie die Rohdaten für den KI-Erkennungstest sind bereits veröffentlicht. Außerdem hat das ENAI Empfehlung für den ethischen Einsatz von KI in der Bildung als Leitartikel im „International Journal for Educational Integrity“ veröffentlicht.

Wir dürfen hier weitere Veröffentlichungen erwarten, denn die jüngsten Fortschritte bei großen Sprachmodellen und generativer künstlicher Intelligenz haben gerade in der akademischen Welt viele Bedenken hinsichtlich ihrer ethischen Verwendung und der richtigen Bewertungsstrategien aufgeworfen. Das Hauptaugenmerk der akademischen Integritätsgemeinschaft verschiebt sich daher zunehmend von Plagiaten und Unterschleif auf den Einsatz generativer künstlicher Intelligenz. Die ENAI-Arbeitsgruppe beschäftigt sich daher mit dem Testen von Hilfsmitteln zur Plagiatserkennung und erweiterte hierfür ihren Forschungsbereich um die Bereiche Technologie und akademische Integrität.

Mein Fazit

Detektorsysteme wie diese verdienen unser Vertrauen nicht. Bei fälschlicherweise erkannten KI-Texten kommt die Frage nach der Genauigkeit und Zuverlässigkeit auf.

Kai Spriestersbach

Mein Tipp lautet daher: Probiert es am besten selbst aus und zeigt Euren Kunden und Vorgesetzten, dass diese Tools grundlegende Schwächen haben.

Solange KI-Detektoren nicht zuverlässig arbeiten und ihre Einschränkungen und potenziellen Fehler transparent machen, halte ich deren Einsatz für deutlich schädlicher als nützlich. Umso wichtiger ist es, dass Nutzer dieser Systeme verstehen, wie sie funktionieren und wie man ihre Ergebnisse interpretiert.

SEARCH ONE Inhaber Kai Spriestersbach
Galgenäcker 7, 97903 Collenberg, E-Mail: [email protected] https://www.afaik.de/impressum/
Umsatzsteuer-Identifikationsnummer gemäß §27 a Umsatzsteuergesetz: DE283102737, https://www.afaik.de/datenschutz/
Abmelden   |   Verwalte dein Abonnement   |   Online ansehen