Ein Mann lässt sich vom Tesla Model Y auf der Autobahn mit Autopilot chauffieren.
Computer können inzwischen erstaunlich gut mit Sprache umgehen. Unternehmer, Politiker und viele andere denken darüber nach, was daraus folgt und wie sie das nutzen können. Milliardensummen fließen in entsprechende Künstliche Intelligenzen (KI), denn es geht um viel: Sprache ist weit mehr als das alltägliche Sprechen, sie ist diejenige Kulturtechnik, mit der die Menschheit einfache und komplizierte Sachverhalte erfassen, strukturieren, transformieren, speichern, weitergeben und sogar über ganz alternative Zeitabläufe fundiert spekulieren kann. Erst Sprache ermöglicht Zivilisation. Jedem ist mittlerweile klar, was hier womöglich auf dem Spiel steht.
Warum ist das so? Wieso gelingt Computern, die Menschen inzwischen in so vielen speziellen Domänen übertreffen, eigentlich nicht, eine einfache Führerscheinprüfung zu bestehen? Knapp gesagt lautet die Antwort: weil dahinter in mehrfacher Hinsicht eine noch komplexere Kompetenz steckt als der gekonnte Umgang mit Texten.
Mehr als eine biologische Kamera
Der Verkehr in einer Innenstadt ist verglichen mit einem Brettspiel wie Schach oder Go mathematisch ungleich schwerer fassbar. Wo das „Spielfeld“ anfängt und endet, ist nicht so klar abgrenzbar. Die Anzahl der „Spielfiguren“ ist viel größer, ihr mögliches Verhalten, sozusagen die „Spielregeln“, kann viel stärker variieren. Wer durch eine Innenstadt fährt, muss große und kleine Autos, Lastwagen, Fahrräder, Motorroller, Kinderwagen, Rollstühle, Fußgänger, auf dem Boden laufende oder nah am Boden fliegende Tiere aus verschiedenen Perspektiven, unter unterschiedlichen Licht- und Wetterverhältnissen richtig erkennen. Und darüber hinaus ein- und abschätzen können, wie sie sich bewegen.
Und sie tun das offenkundig eben nicht nur mit ihren beiden Augen, sie sind viel mehr als eine biologische Videokamera. Das ist ein Grund, aus dem alle ernsthaft am autonomen Fahren tüftelnden Ingenieure in Unternehmen oder Universitäten auf mehrere Sensorarten setzen: Der Dreiklang aus Radar, Lidar und Kamera ist gelebter Konsens, nicht ausgehandelt ist das richtige Zusammenspiel. Elon Musk und sein KI-Team glaubten vorübergehend, dass Kameras allein ausreichen – Tesla installierte infolgedessen eines der größten Supercomputer-Cluster der Welt. Doch trotz der enormen Weiterentwicklung im maschinellen Sehen, in den Bilderkennungsfähigkeiten von KI-Systemen, genügt das (Stand heute) nicht.
Eine weitere Hürde kommt hinzu: Wer Auto fährt, ist Beobachter und Akteur zu gleich, ist mit eigener Verkörperung in einer Situation präsent und verändert sie. Ein künstlich intelligentes autonomes Fahrzeug muss auch das einkalkulieren und sich entsprechend verhalten können. Und schließlich ist die Gefahr beachtlich: Ein Auto kann einen Menschen umbringen, potentiell tödlichen Schaden anrichten – das ist etwas ganz anderes als das Risiko einer unverschämten oder faktisch falschen Antwort eines Chatbots.
All die erwähnten Schwierigkeiten erklären umgekehrt indes den Anreiz, dennoch davon zu träumen und auszuprobieren, ob es gelingen kann, ein echtes autonomes Auto zu entwickeln. Dort träfe hohe Fahrzeug-Ingenieurskunst auf ein neues Level der Künstlichen Intelligenz. Auf KI, die sowohl formale Regeln und Normen aufnehmen und befolgen kann als auch aus gemachter Erfahrung dazulernt. Und all dies in einem der anspruchsvollsten Anwendungsbereiche. Wer so etwas erfindet, würde letztlich viel mehr einreißen als „nur“ die Barriere zum autonomen Fahren – sondern ein ganz neues technologisches Potential zugänglich machen.