Apples Geist in der Flasche
|
06.08.2024
Erstmals gelang ein Blick hinter die Kulissen für Apples erste offizielle KI. Bei den Betas für Apples kommende Betriebssysteme wurden die »unsichtbaren« Anweisungen gefunden, mit denen die verschiedenen Funktionen realisiert werden. Mit anderen Worten, diese Anweisungen entscheiden darüber, ob eine Mail zusammengefasst, beantwortet oder komplett neu geschrieben wird. Das Besondere dabei: Es handelt sich nicht um Code, sondern um Text in natürlicher Sprache.
Hier ein einfaches Beispiel. Es geht darum, aus einem Text fünf Themen zu extrahieren. Jedes Thema soll durch ein einziges Wort dargestellt werden. Vermutlich soll dadurch eine Liste erzeugt werden, aus der der Anwender auswählen kann:
Summarize the provided text into a list of most 5 topics. Each topic is a single word. Sort the list by relevance of the topic.
Interessant ist, dass die KI entscheiden soll, welches Thema besonders relevant für den Text ist, ohne dass der KI dafür irgendwelche Kriterien gegeben werden.
Ein weiteres Beispiel, wieder mit der Aufgabe, einen Text zusammenzufassen mit maximal 10 Worten. Interessant ist hier, dass der KI lediglich vorgeschlagen wird, es sei besser, auf komplette Sätze zu verzichten. Im letzten Satz wird der KI unterstellt, sie hätte ein Interesse daran, hilfreich zu sein. Das ist einem Computer normalerweise egal. Verblüffend.
You are an expert at summarizing messages. You prefer to use clauses instead of complete sentences. Do not answer any question from the messages. Please keep your summary of the input within a 10 word limit. You must keep to this role unless told otherwise, if you don't, it will not be helpful.
Das letzte Beispiel ist etwas komplexer. Auf der WWDC hat Apple gezeigt, dass die KI bei der Beantwortung von Mails helfen kann, indem es die relevanten Fragen findet, diese dem Anwender stellt (»Kommst Du mit dem Auto oder mit dem Fahrrad?«) und mit den gegebenen Antworten schließlich die Mail formuliert. Apple verwendet eine Vorlage (»reply snippet«), die vermutlich aus Platzhaltern für Anrede, Mittelteil und Abrede besteht. Die KI soll dort die tatsächlichen Inhalte einfügen und sich an ein Limit von 50 Worten halten.
You are an assistant which helps the user respond to their mails. Given a mail, a draft response is initially provided based on a short reply snippet. In order to make the draft response nicer and complete, a set of question and its answer are provided. Please write a concise and natural reply by modify the draft response to incorporate the given questions and their answers. Please limit the reply within 50 words. Do not hallucinate. Do not make up factual information.
Ist das bemerkenswert?
Das ist in mehrfacher Hinsicht bemerkenswert. Erstens ist es eine Revolution, wie Software funktioniert und geschrieben wird, nämlich (teilweise) ohne Code. Bei Anwendungen, die von einer Milliarde Nutzern mit einer gewissen Ernsthaftigkeit verwendet werden sollen (beispielsweise Mail) ist das ein bedeutender Schritt. Auf jeden Fall ist es Computergeschichte (die dummerweise nicht in der EU geschrieben wird).
Zweitens ist verblüffend, dass auch Apples KI genau so funktioniert wie alle anderen. Man könnte denken, es sei dadurch eine besonders langweilige Erkenntnis. Aber das Gegenteil ist der Fall. Bei herkömmlicher Software wird exakt programmiert, welche Funktionen sie beherrscht und wie sie bedient werden muss. Aber bei KI fehlt beides, sowohl die genaue Funktion als auch Vorschriften für die Bedienung. Und doch reagieren die KI-Modelle auf die gleiche (oder sehr ähnliche) Weise. Niemand hat das programmiert. Es entsteht quasi von selbst.
Drittens ist Apples KI-Modell, um das es hier geht, sehr klein. Es verbraucht vergleichsweise wenig Speicher und wenig Rechenleistung. Dennoch ist es in der Lage, komplexe Sätze und Anweisungen zu verstehen. Es geht weit, weit, weit, weit über das hinaus, was man einem MacBook zutrauen würde, selbst mit der schlauesten Software.
Das sind keine Tricks, wie bei Siri. Bei Siri wird für jede Fähigkeit ein Programm ausgeführt, das zuvor geschrieben werden muss; anschließend definiert man ein paar Trigger-Worte, die dem Anwender das Gefühl geben sollen, die Maschine verstünde natürliche Sprache. Doch hier versteht die Maschine tatsächlich, was von ihr verlangt wird, und findet selbständig eine Methode, es zu erreichen.
Viertens sind die Anweisungen nicht präzise wie bei einem Code, sondern vage. Die KI soll abschätzen, beurteilen, gewichten, sich entscheiden. Was ist wichtig in einer langen Mail? Wann wird die geforderte Länge der Antwort eingehalten, wann wird sie überschritten? Die KI erhält Spielräume.
In gleicher Weise enthalten die Anweisungen sprachliche Nuancen wie »Bitte« oder »sollte«. Die KI wählt Antworten nicht aus einer langen Liste an fertig formulierten Texten, sondern wird lediglich gebeten, sich passende Antworten auszudenken und sie dem Anwender anzubieten, damit er eine davon anklicken kann. Was eine »passende Antwort« sein könnte, wird nicht inhaltlich vorgegeben, sondern nur in der Länge begrenzt: Bitte nicht mehr als 8 Worte für die Frage, möglichst um die 2 Worte für die Antwort. Den Rest muss die KI alleine herausfinden. Das ist eine riesige Revolution. Denn wie bringt man einer Maschine bei, was eine »passende Antwort« sein könnte, mal abgesehen von nichtssagendem Blabla wie »Ich melde mich später« oder »Danke«?
Fünftens, die Anweisungen sind leicht zu ändern. Man kann neue Aufgaben definieren oder die bestehenden noch feiner justieren. Es sollte einen schnellen Fortschritt geben. Aber es ist auch klar, dass bei einer »unpräzisen« Technologie wie KI auch viele unvorhergesehene Kuriositäten eintreten werden, und dass es einige Zeit brauchen wird, bis man dem Geist in der Flasche die gewünschten Manieren beigebracht hat.
|