Serie Forschen und VerstehenWie kann KI Kausalität erkennen?
26. Juni 2025, von Newsroom-Redaktion

Foto: KI-generiert mit „DALL-E“
Künstliche Intelligenz ist in fast allen Lebensbereichen angekommen. Dabei helfen Methoden des maschinellen Lernens, Muster in großen Datenmengen zu erkennen. Doch ist es so auch möglich, kausale Zusammenhänge zu sehen und zu bewerten? Das erforscht Dr. Philipp Bach im Team von Prof. Dr. Martin Spindler, Professor für Statistik an der University of Hamburg Business School.
Was ist die Kernfrage Ihrer Forschung?
Bach: Verfahren des maschinellen Lernens (ML) können dabei helfen, hochkomplexe Zusammenhänge zu modellieren, also Muster in großen Datenmengen zu erkennen. Traditionelle Ansätze fokussieren sich dabei auf Vorhersage-Aufgaben, wie beispielsweise bei Kaufentscheidungen oder Krankheitsdiagnosen. Wir beschäftigen uns aber auch mit Fragen der Kausalität: Können wir die Modelle der künstlichen Intelligenz (KI) verwenden, um Ursache und Wirkung zu erkennen und abzubilden? Und diese kausalen Effekte dann auch richtig bewerten?

Wofür ist das wichtig?
Wenn wir persönlich Entscheidungen treffen, wägen wir Vor- und Nachteile der verschiedenen Handlungsoptionen ab. Uns beschäftigen beispielsweise Fragen wie: Welchen Sport sollte ich treiben, um meine Gesundheit zu verbessern? In der Politik ist es relevant, welche Auswirkungen eine Mindestlohnerhöhung auf die Arbeitslosigkeit hat. Um gute Entscheidungen zu treffen, ist es dabei wichtig, die kausalen Zusammenhänge und die zugrunde liegenden Mechanismen zu verstehen. Hier helfen Daten – und wo es viele Daten gibt, etwa bei der Personalisierung von Therapien in der Medizin, könnte die KI unterstützen.
Was ist die besondere Herausforderung?
Alle kausalen Fragestellungen beinhalten ein statistisches Problem: Beispielsweise möchte man für die Zulassung einer medizinischen Behandlung wissen, ob diese die Gesundheit im Durchschnitt tatsächlich verbessert. Da wir nicht alle Erkrankten untersuchen können und nur mit einer Stichprobe an Daten arbeiten, können wir die Wirksamkeit auf dieser Basis immer nur schätzen. Damit bleibt eine statistische Unsicherheit und wir fragen uns: Wie genau ist unsere Schätzung? Und wie können wir die Unsicherheit quantifizieren?
Es sind also neben den Daten vor allem die richtigen Algorithmen gefragt?
Ja, denn diese Ausgangssituation trifft auf sehr flexible Modelle des Machine Learnings, das heißt, sie passen sich an komplexe Muster in den Daten an. Das ist für unser Anliegen ein Problem, denn unsere Schätzverfahren müssen gewisse Qualitätskriterien erfüllen, wie zum Beispiel die Vermeidung systematischer Verzerrungen. Diese würden zu falschen Schätzergebnissen und daher zu irreführenden Schlussfolgerungen führen.
In unserem Forschungsgebiet arbeiten wir daher mit Ansätzen, die es ermöglichen, die Flexibilität des Machine Learnings zu nutzen und gleichzeitig valide statistische Schätzung kausaler Effekte zu gewährleisten. Ein maßgeblicher Ansatz ist der des „Double Machine Learning“, der in unserer Forschungsgruppe eine zentrale Rolle spielt. Hier sind zusätzlich technische Fähigkeiten aus dem Bereich der Software-Entwicklung notwendig und unserem Projekt hilft auch die gute technische Ausstattung des Hummel-2-Clusters des RRZ mit zahlreichen GPU-Instanzen.
Können Sie ein Beispiel nennen, wo diese KI-Methoden Anwendung finden?
Wir arbeiten häufig im Bereich der Ökonometrie, also der Statistik in den Wirtschaftswissenschaften. In einem aktuellen Forschungsprojekt untersuchen wir etwa, welche Rolle Text- und Bilddaten im Onlineshopping spielen. Dabei gehen wir davon aus, dass Textbeschreibungen und Produktbilder die Kaufentscheidung bei Amazon und Co. beeinflussen. Sprich: Manche Produkte wirken durch bestimmte Darstellungsmerkmale ästhetischer, interessanter oder qualitativ hochwertiger – und daher werden sie eher gekauft. Das ist ein kausaler Zusammenhang. Wenn ich diese Effekte kenne und weiß, welche Fotomotive und Key Words besonders gut funktionieren, könnte ich die Kaufbereitschaft der Kundinnen und Kunden besser einschätzen und damit die Preisgestaltung optimieren.
In unserem Projekt haben wir einen Datensatz mit umfangreichen Beschreibungen von Spielzeugautos angelegt, der verschiedene Merkmale wie Bild, Beschreibung und relevante Daten zu Größe und Preis enthält. Dazu kommen Informationen darüber, wie viele Menschen einen Artikel mit bestimmten Eigenschaften gekauft haben. Die Text- und Bilddaten können wir mit modernen Architekturen neuronaler Netze in unsere kausale Fragestellung integrieren. So können wir abschätzen, welche Faktoren für die Käuferinnen und Käufer relevant sind und inwiefern diese die Zahlungsbereitschaft beeinflussen. Durch Large Language Modelle können wir also die Rolle bestimmter Produkteigenschaften für die Kaufentscheidungen besser verstehen.
Forschen und Verstehen
In den acht Fakultäten der Universität Hamburg forschen rund 6.200 Wissenschaftlerinnen und Wissenschaftler. Auch viele Studierende wenden oft bereits im Studium ihr neu erworbenes Wissen in der Praxis an. Die Reihe „Forschen und Verstehen“ gibt einen Einblick in die große Vielfalt der Forschungslandschaft und stellt einzelne Projekt genauer vor. Fragen und Anregungen können gerne an die Newsroom-Redaktion(newsroom"AT"uni-hamburg.de) gesendet werden.