Werter Abonnent, Werte Abonnentin :)
Es ist mal wieder Zeit für einen neuen Newsletter!
Aktuell gibt es eine hitzige Debatte darüber, ob LLMs wirklich denken können. Einige argumentieren, dass sie „nur“ Next-Token-Prädiktoren sind oder „nur“ Maschinen ohne echtes Verständnis. Andere versuchen genau das zu widerlegen und zu zeigen, dass LLMs doch eine Form von Kognition besitzen. So gibt es beispielsweise den aktuellen Preprint „A rebuttal of two common deflationary stances against LLM cognition“ von Zak Hussain und Rui Mata, der genau diese Argumente kritisch beleuchtet.
Während diese theoretische Diskussion weitergeht, arbeiten Forschende längst daran, die Grenzen von LLMs praktisch zu verschieben – insbesondere durch die Kombination mit Robotik. Ziel ist es, multimodale Modelle zu schaffen, die nicht nur Sprache, sondern auch sensorische und motorische Daten verarbeiten. Wenn LLMs nicht nur Texte generieren, sondern auch physisch mit der Welt interagieren, könnten sie vielleicht doch eine Form von Kognition entwickeln. Allerdings gibt es dazu bislang keine wirklich bahnbrechenden Veröffentlichungen.
Bevor das aber wirklich funktioniert, werden erst mal noch ein paar Milliarden verbrannt, um aus LLMs sogenannte LRMs (Large Reasoning Models) zu machen. Dabei wird man vor allem versuchen, durch „generating more tokens during test-time inference“ irgendwie intelligenter zu wirken. 😆
Aber mal schauen, was die wirklich schlauen Leute, die es ja definitiv gibt, sich noch so alles einfallen lassen.
Ich bin mir ziemlich sicher, dass am Ende eine Verbindung zwischen symbolischer KI (logikbasierte Systeme) und stochastischer KI (LLMs & neuronale Netze) gebaut wird. Das wird in 99,X % der Fälle funktionieren, dann als revolutionäre Lösung ausgerollt und verkauft. Die restliche Unsicherheit im System wird mit der Zeit aber zu immer mehr Problemen führen – die dann niemand mehr wirklich versteht. 😄
Willkommen in der Zukunft! 🚀
Tipp: Wenn dir das Ganze zu abstrakt und unverständlich ist: Ich schreibe gerade an meinem neuen Buch, das im Herbst im Kösel Verlag erscheint und das Thema KI Eltern und Lehrkräften näherbringt. Dafür habe ich eine sehr einfache Erklärung geschrieben, wie die neuen Reasoning-Modelle, also OpenAIs o1, o1-mini, o3-mini DeepSeeks R1, etc. einzuordnen sind. Diesen Text findet ihr am Ende dieses Newsletters als kleinen Teaser auf das Buch :)
Ansonsten gibt es natürlich wieder eine Menge KI-News... Let's go!
Kai |
| |
Perplexity führt „Deep Research“ ein – Automatisierte Tiefenrecherche für komplexe Fragestellungen
Perplexity hat mit Deep Research eine neue Funktion veröffentlicht, die automatisierte, umfassende Recherchen ermöglicht. Während klassische KI-gestützte Suchanfragen meist auf eine begrenzte Anzahl an Quellen zugreifen, geht Deep Research einen Schritt weiter: Es führt zahlreiche Suchanfragen aus, wertet Hunderte von Quellen aus und erstellt daraus strukturierte Berichte.
Wie funktioniert Deep Research?
Die Methode erinnert an den Rechercheprozess eines Menschen:
- Iterative Suche und Analyse: Das System sucht nicht nur einmal, sondern passt seine Recherche dynamisch an, je nachdem, welche Informationen es findet.
- Zusammenführung der Erkenntnisse: Nach der Analyse werden die Ergebnisse in einem Bericht zusammengefasst, der als PDF exportiert oder als Perplexity Page geteilt werden kann.
Deep Research soll sich besonders für tiefgehende Analysen in Bereichen wie Finanzwesen, Marketing, Technologie oder Gesundheit eignen. Auch für Reiseplanung oder biografische Recherchen könnte die Funktion nützlich sein.
Das beste: Jede*r kann Deep Research ausprobieren, allerdings mit einer Begrenzung der täglichen Anfragen. Wer Perplexity Pro nutzt, erhält unbegrenzten Zugriff.
Aktuell ist die Funktion über die Webversion von Perplexity nutzbar, mobile Apps für iOS, Android und macOS sollen bald folgen.
Perplexitys Deep Research bietet eine weitere interessante Möglichkeit, KI-gestützte Recherchen unmittelbar zu testen. Bei Googles Gemini geht übrigens das schon eine ganze Weile, im Gegensatz zu OpenAIs o3-Modell mit Deep Research-Funktion, das bisher vor allem durch Ankündigungen aufgefallen ist. Wer die Leistungsfähigkeit von Deep Research selbst prüfen möchte, kann es direkt unter perplexity.ai ausprobieren. |
| |
Passend zur Ankündigung von Deep Research las ich bei the-decoder von dieser besorgniserregenden Studie:
BBC-Studie: KI-Assistenten verfälschen Nachrichten systematisch
Eine Untersuchung der BBC zeigt deutliche Mängel bei der Nachrichtenverarbeitung durch KI-gestützte Assistenten wie ChatGPT, Microsoft Copilot, Google Gemini und Perplexity. Die Studie analysierte die Antworten dieser Systeme auf 100 aktuelle Nachrichtenfragen anhand von sieben Kriterien, darunter Genauigkeit, Quellenangabe und Kontext.
Zentrale Ergebnisse
- Hohe Fehlerquote: 51 % der Antworten enthielten signifikante Fehler, darunter falsche Fakten, irreführende Quellenangaben und fehlenden Kontext.
- Erfundene oder verfälschte Zitate: In 13 % der Fälle waren Zitate entweder nicht vorhanden oder inhaltlich verändert.
- Falschinformationen zu sensiblen Themen: Beispiele umfassen fehlerhafte Gesundheitsratschläge, falsche Todesmeldungen und ungenaue politische Informationen.
Besonders problematisch ist die Angabe von renommierten Medien wie der BBC als Quelle, obwohl die KI-generierten Inhalte nicht immer korrekt sind. Die BBC fordert daher stärkere Regulierung und mehr Kontrolle über die Nutzung von KI-generierten Nachrichten.
Die Untersuchung zeigt, dass selbst fortgeschrittene KI-Modelle weiterhin erhebliche Schwächen im Umgang mit aktuellen Informationen haben. Eine geplante Wiederholung der Studie soll weitere Erkenntnisse liefern. |
| |
Dazu passt, was Cassie Kozyrkov, Google's erste 'Chief Decision Scientist' kürzlich auf LinkedIn über KI schrieb, das wirklich JEDE:R wissen sollte:
AI only sees the past, not the future. AI only sees the pattern, not the purpose. AI only sees the data trail, not the human story. AI only sees compliance, not commitment. AI only sees keyword matches, not understanding. AI only sees what you wrote, not what you thought. AI only sees message response times, not friendship. AI only sees your calendar events, not what they mean to you. AI only sees what was implemented, not what was considered. AI only sees the final decision, not bolts of inspiration. AI only sees what worked before, not what will work next. AI only sees what you did, not why you did it. AI only sees your digital shadow, not the real you.
Ich würde noch ergänzen: Don’t believe the hype!
Denn KI ist weder Magie noch eine Lösung für alles. Aber sie kann in vielen Bereichen sinnvoll eingesetzt werden – wenn man sie richtig versteht und gezielt einsetzt.
Ich helfe gerne dabei, herauszufinden, wo KI in deinem Unternehmen wirklich einen Mehrwert schaffen kann und wie man sie sinnvoll implementiert – ohne in die typischen Fallstricke zu tappen. |
| |
Websets: Neue Suchmaschine jetzt für alle verfügbar!
|
| |
Die von Exa AI angekündigte Suchmaschine Websets, über die ich im letzten Jahr im Newsletter berichtet hatte, ist ab sofort für alle zugänglich!
Zur Erinnerung: Websets ermöglicht komplexe Websuchen in natürlicher Sprache. Die KI analysiert Anfragen, identifiziert relevante Daten und verifiziert diese durch parallele Quellen. So lassen sich beispielsweise gezielt AI-Startups in den USA oder bestimmte Forschungsarbeiten finden. Die Ergebnisse sind editierbar, mit zusätzlichen Kriterien anpassbar und lassen sich als CSV exportieren.
Websets ist keine Konkurrenz zu klassischen Suchmaschinen wie Google und Bing und auch keine KI-Suche wie Perplexity, sondern soll insbesondere im beruflichen Kontext bei der Recherche helfen.
Nachdem man seine Suche eingegeben hat, wird diese in Kriterien aufgelöst, in meinem Beispiel wurde aus „Web Hosting Companies offering WordPress Hosting Plans“ eine Suche nach Firmen, die:
- Company operates in the web hosting industry
- Company offers WordPress hosting plans
In meinen Kurztests waren die Ergebnisse für Suchen nach Deutschen Unternehmen nicht überzeugend, für den US Markt funktioniert das Ganze allerding schon ziemlich gut! |
| |
Die Preise sind allerdings ziemlich gesalzen:
- Starter: $200/Monat, 20.000 Credits, max. 100 Ergebnisse pro Suche
- Pro: $800/Monat, 100.000 Credits, max. 100 Ergebnisse pro Suche
- Enterprise: Individuelle Preise, bis zu 10.000 Ergebnisse pro Suche
Wer mehr erfahren möchte, kann eine Demo buchen oder direkt starten: websets.exa.ai |
| |
KI als wichtigste Zielgruppe? Warum SEOs vielleicht bald doch für Maschinen optimieren
Als ich vor 20 Jahren mit dem Thema Suchmaschinenoptimierung angefangen habe, hatten viele Kollegen hauptsächlich die Maschine vor Augen, die es auszutricksen galt. Jahrelang haben wir den SEOs erklärt, dass sie besser Inhalte für Menschen und Algorithmen gleichermaßen optimieren sollten. Doch was, wenn die wichtigste „Kundin“ in Zukunft gar nicht mehr der Mensch ist, sondern eine KI?
Laut MIT Technology Review könnte genau das Realität werden: Immer mehr Konsument*innen lassen sich von KI-gestützten Agenten Produkte, Dienstleistungen und Marken empfehlen – oder demnächst auch direkt für sie einkaufen. Die entsprechenden Technologien existieren bereits. Das bedeutet, dass Unternehmen zunehmend darauf achten müssen, wie ihre Marke von KI-Modellen und den Suchmaschinen, die diese verwenden, wahrgenommen wird.
Erste Unternehmen nutzen bereits Tools, um herauszufinden, wie verschiedene KI-Modelle ihr Angebot bewerten. Der nächste Schritt? Gezieltes „AI Optimization“ (AIO) – also die strategische Anpassung von Markenbotschaften, Bildern und Produktbeschreibungen, um positiv von KI-Modellen interpretiert zu werden.
Wird das ein neues Katz-und-Maus-Spiel zwischen Unternehmen und KI-Betreibern – ähnlich wie im klassischen SEO? Welche Rolle spielen dabei Verzerrungen und Vorurteile der KI-Modelle?Ich habe hierzu sogar einen eigenen Onlinekurs gestartet.
Was meinst Du? |
| |
Googles „Multi-Agenten-KI-Mitforscher“
Von Sakaras KI-Forscher hatte ich schon vor einigen Monaten berichtet, heute hat nun Google hat einen „KI-Co-Wissenschaftler “auf den Markt gebracht, also einen Multi-Agenten-Forschungsassistenten (basierend auf Gemini 2.0), der wissenschaftliche Entdeckungen beschleunigt, indem er neue Hypothesen in Bereichen wie Medizin, Genetik und anderen generiert und validiert.
Im Gegensatz zu Sakaras Ansatz, betreibt Google hier keinen vollständig autonomen Agenten, sondern einen kollaborativen und menschenzentrierten Prozess.
Dabei kommen sechs spezialisierte KI-Agenten zum Einsatz, die parallel von der Hypothesengenerierung über die Validierung von Forschungsvorschlägen bis hin zur abschließenden Überprüfung arbeiten. In Versuchen an der Stanford University und am Imperial College identifizierte das System innerhalb weniger Tage neue Anwendungen für Medikamente und sagte Mechanismen des Gentransfers voraus.
Erste Tests zeigen eine Genauigkeit von über 80 % bei Benchmarks auf Expertenniveau und übertreffen damit sowohl bestehende KI-Modelle als auch menschliche Experten. Google bietet den Zugang über ein Trusted-Tester-Programm an, das sich an Forschungseinrichtungen weltweit richtet und Tests in verschiedenen wissenschaftlichen Bereichen ermöglicht. |
| |
Anthropic kommt GPT-5 zuvor! – Release in wenigen Wochen
Anthropic steht offenbar kurz vor der Veröffentlichung seines nächsten großen KI-Modells und wird es offenbar vor GPT 5 schaffen, ein „hybrides“ Modell zu veröffentlichen, das flexibel zwischen tiefgehendem logischen Denken („deep reasoning“) und schnellen Antworten wechseln kann. Entwickelnde sollen über eine Art „Schieberegler“ die Rechenleistung und damit auch die Kosten anpassen können.
Quelle: The Information.
Der Bericht legt nahe, dass das neue Modell in bestimmten Programmieraufgaben besser abschneidet als OpenAIs o3-mini-high-Modell. Besonders stark soll es beim Analysieren großer Codebasen und in geschäftsrelevanten Benchmarks sein.
In einem Interview mit TechCrunch deutete Anthropics CEO an, dass man daran arbeite, KI-Modelle mit besserem logischen Denkvermögen zu entwickeln, anstatt zwischen „normalen“ und „reasoning“-Modellen zu unterscheiden. Dieses Ziel soll bei OpenAIs GPT-5 erreicht werden, aber vorher will OpenAI noch GPT-4.5 als letztes non-resoning Modell veröffentlichen!
Mit der Veröffentlichung von Anthropics wird bereits in den kommenden Wochen gerechnet, was bedeuten würde, dass man OpenAI tatsächlich überholt haben könnte!
OpenAI hat seine Pläne als Reaktion darauf kurzfristig geändert: CEO Sam Altman gab bekannt, dass das ursprünglich geplante o3-Modell nicht mehr als eigenständige Version erscheinen wird. Stattdessen setzt OpenAI auf GPT-5, das o3s Funktionen integrieren und ein gestaffeltes Leistungssystem für verschiedene Nutzertypen bieten soll.
Vor GPT-5 soll aber noch GPT-4.5 („Orion“) veröffentlicht werden – das letzte Modell ohne „Chain-of-Thought“-Optimierung. Laut Altman wird GPT-4.5 in den nächsten Wochen erscheinen, während GPT-5 erst in einigen Monaten folgt. |
| |
OpenAI gegen Zensur? Neue Model-Richtlinien veröffentlicht
OpenAI hat eine aktualisierte Version seiner „Model Spec“ veröffentlicht – eine Sammlung von Regeln, die das Verhalten seiner KI-Modelle definieren. Darin betont das Unternehmen, dass seine KI-Modelle keine eigene Agenda verfolgen und keine Standpunkte unterdrücken dürfen. Die Modelle sollen auch bei sensiblen Themen keine Meinungen zensieren oder bestimmte Perspektiven aus dem öffentlichen Diskurs ausschließen.
Die Änderung dürfte eine Reaktion auf Kritik aus konservativen Kreisen sein. Prominente Stimmen wie Elon Musk und Investor David Sacks haben OpenAI vorgeworfen, dass ChatGPT voreingenommen sei und konservative Ansichten benachteilige.
Mit den neuen Richtlinien will OpenAI nun angeblich für mehr „Neutralität“ sorgen, besser gesagt, sich Trumps Vorstellungen von Neutralität unterwerfen. Ob und wie sich das in der Praxis bemerkbar macht, bleibt abzuwarten. |
| |
Und hier noch, wie versprochen, eine kleine Preview auf Erklärungen für Eltern und Lehrkräft in meinem nächsten Buch: |
| |
Können Reasoning-Modelle wirklich denken?
Falls Du noch nie von den „denkenden Modellen“ gehört hast, ist das nicht weiter schlimm. Seit einiger Zeit stehen beispielsweise bei ChatGPT & Co. eine neue Klasse von Modellen zur Beantwortung von Fragen zur Auswahl. Die sogenannten „Reasoning-Modelle“ kann man sich als eine neue Generation von Sprachmodellen vorstellen, die nach demselben einfachen Prinzip der Vorhersage des nächsten Wortes funktionieren.
Der Unterschied hierbei ist, dass sie nicht nur darauf optimiert werden für Menschen gut klingende Texte auszuspucken, sondern mit der Erzeugung von Gedankenschritten versuchen, komplexes logisches Denken nachzuahmen. Sie „denken“ dabei aber nicht wirklich nach, sondern schreiben nur zuerst eine Reihe möglicher Zwischenschritte auf, bevor sie eine endgültige Antwort geben.
Dieses Schritt-für-Schritt ausformulieren des Lösungswegs erhöht tatsächlich die Wahrscheinlichkeit dafür, dass das Modell eine richtige Antwort ausspuckt. Daher sind diese Modelle besonders gut beim Lösen komplexer Probleme wie dem Programmieren oder wissenschaftlichen Fragestellungen. Allerdings führt dieses zusätzliche Nachdenken auch zu längeren Antwortzeiten und erhöhtem Rechenaufwand.
Reasoning-Modelle unterscheiden sich von traditionellen Sprachmodellen also durch ihre Fähigkeit, komplexe Probleme durch eine Art von internem Nachdenken zu lösen. Sie führen interne Gedankenschritte durch, bevor sie eine Antwort geben. Allerdings entstehen diese Gedankenketten nach wie vor durch die Vorhersage des nächsten Wortes, sind also im Prinzip genau anfällig für Fehler und Halluzinationen
Lass es mich mit einem einfachen Beispiel erklären:
Stell dir vor, du gibst einem Kind eine schwierige Matheaufgabe. Ein kluges Kind würde nicht sofort eine Antwort hinschreiben, sondern erst einmal nachdenken und die Aufgabe in kleinen Schritten lösen – wahrscheinlich sogar auf einem Schmierzettel die einzelnen Rechenschritte aufschreiben.
Genauso funktionieren die neuen „Reasoning-Modelle“. Sie schreiben sich erst ihre „Gedanken“ auf, bevor sie antworten. Das macht sie besonders gut bei kniffligen Aufgaben wie dem Programmieren oder wenn man wissenschaftliche Fragen hat.
ABER: Sie denken nicht wirklich wie ein Mensch. Sie machen nur, was sie gelernt haben – nämlich Schritt für Schritt eine Lösung aufzuschreiben. Das ist so ähnlich, wie wenn du einem Kind eine Strategie beibringst, wie es Matheaufgaben lösen soll.
Die Grenzen dieser Modelle zeigen sich, wenn die Aufgaben zu kompliziert werden, denn Sie können oft nicht flexibel genug denken. Gerade bei sehr langen Texten verlieren sie den Überblick, denn es ist sehr schwierig für sie Verbindungen zwischen verschiedenen Informationen herstellen.
Das ist so, wie wenn ein Kind zwar gelernt hat, wie man bestimmte Matheaufgaben löst, aber bei einer leicht veränderten Aufgabe nicht mehr weiterweiß.
Für den Alltag reichen diese Fähigkeiten aber meistens völlig aus – so wie die meisten von uns auch keine komplizierten mathematischen Formeln brauchen, um durchs Leben zu kommen. Wenn es aber um richtig schwierige Probleme geht, braucht es vielleicht neue Wege, damit Computer diese besser lösen können. |
| |
Inhaber Kai Spriestersbach
Galgenäcker 7, 97903 Collenberg
Impressum: afaik.de/impressum
| |
|