ChatGPT & Co: Fast jeder dritte KI-Nutzer findet Fehler

TÜV-Verband-Umfrage: 75 Prozent der KI-Nutzenden sind mit den Ergebnissen zufrieden, aber jede:r Dritte findet Fehler. Kritischer Umgang mit generativer KI notwendig. Hinweise für den Faktencheck: So überprüfen Nutzer:innen die Richtigkeit der Ergebnisse.

© Planet Volumes via Unsplash

Berlin, 13. März 2025 – Generative Künstliche Intelligenz (KI) wie ChatGPT, Claude, LeChat oder DeepSeek wird immer häufiger genutzt, doch viele Anwender:innen stehen den Ergebnissen kritisch gegenüber. Zwar geben drei von vier (75 Prozent) Nutzer:innen an, mit den Ergebnissen zufrieden zu sein, jedoch überprüfen knapp vier von fünf (78 Prozent) die KI-Inhalte durch eigene Recherchen. Das geht aus einer repräsentativen Forsa-Umfrage im Auftrag des TÜV-Verbands unter 1.001 Personen ab 16 Jahren hervor. Um sich abzusichern, fragen 44 Prozent der Nutzer:innen die KI explizit nach Quellenangaben. Des Weiteren empfindet fast jede:r Zweite (48 Prozent) die KI-Antworten als oberflächlich und 43 Prozent kritisieren mangelnde Konkretheit. Jede:r dritte KI-Nutzer:in (31 Prozent) gibt an, dass die Anwendungen häufig fehlerhafte oder falsche Informationen liefern. „Die Ergebnisse generativer KI-Anwendungen sind in der Regel als Erstaufschlag hilfreich aber alles andere als perfekt“, sagt Patrick Gilroy, Referent für Künstliche Intelligenz und Bildung beim TÜV-Verband. „KI-Nutzer sollten die Antworten der KI kritisch hinterfragen, Quellen checken und mit eigenen Erkenntnissen verknüpfen, um optimale Ergebnisse zu erzielen.“ Nur so könnten Fehler vermieden und die Potenziale der Technologie voll ausgeschöpft werden. „Im beruflichen Kontext zählt der kompetente und reflektierte Umgang mit KI-generierten Inhalten zu den wichtigsten ‚Future Skills‘“, sagt Gilroy. Laut den Ergebnissen der KI-Umfrage des TÜV-Verbands wird generative KI derzeit von gut jedem:r zweiten Bundesbürger:in (53 Prozent) genutzt.

Herausforderungen generativer KI-Modelle

Die Qualität der KI-Ergebnisse hängt maßgeblich von den zugrundeliegenden Trainingsdaten ab, die lücken- oder fehlerhaft sein können. Die Datenbasis ist aber für die Nutzenden nur selten transparent. Darüber hinaus können algorithmische Verzerrungen oder gezielte Manipulationen durch politische oder wirtschaftliche Interessen bereits in der Entwicklung die Ergebnisse beeinflussen. So liefert beispielsweise das chinesische KI-Modell DeepSeek keine Antworten zu oppositionellen Bewegungen in China oder dem Tiananmen-Massaker. Auch das Grok-Modell von Elon Musks xAI zensierte zeitweise kritische Antworten des eigenen Modells, welche ihn und Donald Trump in ein schlechtes Licht rückten. Die Art der Programmierung und das Design der Modelle spielen eine Rolle, etwa wenn Systeme bestimmte Inhalte und Quellen priorisieren oder filtern. „Grundsätzlich sind inhaltliche Leitplanken für die Ausgaben leistungsstarker Allzweck-KI-Modelle sinnvoll und wünschenswert, um beispielweise diskriminierende Antworten oder Anleitungen zum Bau von Bomben zu verhindern“, sagt Gilroy. „Die Frage ist, wer diese Regeln nach welchen Vorgaben festlegt.“

KI-Systeme wie ChatGPT stehen auch in der Kritik, weil sie immer wieder erfundene („halluzinierte“) Informationen ausgeben oder sogar Quellen erfinden, anstatt Nichtwissen einzugestehen. Anstatt Lücken oder mögliche Fehler kenntlich zu machen „dichtet“ die KI zunächst überzeugend klingende Antworten hinzu. Mittlerweise bieten viele KI-Anbieter verbesserte „Deep Research“-Funktionen, die detailliertere Analyseaufgaben mitsamt Internetrecherchen ermöglichen. „Nutzer:innen sollten sich bewusst machen, dass KI-Anwendungen nicht neutral sind, sondern von den verwendeten Trainingsdaten, den zugrundeliegenden Algorithmen und der Zusammensetzung der Entwicklungsteams beeinflusst werden“, sagt Gilroy. „Damit KI langfristig Vertrauen gewinnt, müssen Transparenz und Verlässlichkeit der Systeme weiter verbessert werden. Und auf Seiten der Nutzer:innen darf zunehmende Vertrautheit mit generativer Ko-Intelligenz nicht das eigene kritische Denken ausschalten.“ Die bald erwarteten Leitlinien für Allzweck-KI (GPAI Codes of Practice) des europäischen KI-Büros, die im Rahmen des EU AI Acts formuliert werden, könnten hier einen Fortschritt bringen.

Sicherer Umgang mit generativer KI – Tipps für den Faktencheck

Um generative KI sinnvoll und sicher einzusetzen, empfiehlt der TÜV-Verband:

  1. Quellen prüfen: Inhalte mit verlässlichen Nachrichtenportalen, wissenschaftlichen Publikationen oder offiziellen Dokumenten abgleichen. Denn KI-Chatbots durchsuchen je nach Anbieter und Modell teils keine externen Quellen in Echtzeit – sie verarbeitet bestehende Daten aus ihrem Training oder vordefinierten Datenquellen.
  2. Faktencheck nutzen: Spezialisierte Websites wie FactCheck.org oder Snopes zur Überprüfung heranziehen. Auch eine herkömmliche Internetsuche kann helfen, Falschinformationen aufzudecken und Fakten zu verifizieren.
  3. Quellen vergleichen: Informationen aus unabhängigen Quellen gegeneinander abwägen, bei Unsicherheiten Expert:innen befragen. Ein breiter Quellensatz verringert das Risiko einseitiger oder verzerrter Darstellungen.
  4. Aktualität sicherstellen: Veröffentlichungsdatum und Relevanz der Informationen überprüfen. Veraltete Daten können zu falschen Schlussfolgerungen führen.
  5. Logik und Konsistenz prüfen: Widersprüche oder nicht plausible Aussagen erkennen. Fehlerhafte oder unschlüssige Inhalte deuten darauf hin, dass eine Information nicht zuverlässig ist.
  6. Bias hinterfragen: Entstehung, Perspektiven und mögliche Verzerrungen der KI-generierten Inhalte bedenken. KI-Chatbots spiegeln oft vorhandene Vorurteile aus Trainingsdaten wider.

KI-Kompetenzen ausbauen

Der TÜV-Verband engagiert sich für den Auf- und Ausbau von KI-Kompetenzen, unter anderem als Partner der „AI Skilling Alliance Deutschland“. Die Allianz bietet kostenlose Basiskurse und Lernpfade an. Weiterführende KI-Seminare finden Interessierte bei den TÜV-Akademien.

Zur ChatGPT-Studie gelangen Sie hier.

Methodik-Hinweis: Grundlage der Angaben ist eine repräsentative Forsa-Umfrage im Auftrag des TÜV-Verbands unter 1.001 Personen zwischen 16 und 75 Jahren. Die Umfrage wurde im Oktober 2024 durchgeführt. Die Frage lautete: „Inwieweit stimmen Sie den folgenden Aussagen über die Qualität der Ergebnisse von generativer KI wie Chat GPT zu?“