Fenster schliessen
 | RSSImpressum | Login logo
logo



Pelikane und Künstliche Intelligenz


In einem früheren Artikel hatte ich dargelegt, wie viel 16 GB RAM sind, wenn man es mit Künstlicher Intelligenz zu tun hat. Die zusätzlichen 8 GB, die den Macs zukünftig zur Verfügung stehen, sind nützlich für kleine und spezialisierte Aufgaben.

Für größere Aufgaben benötigt man massive Kapazitäten – erstens bei der Speicherkapazität und zweitens bei der GPU, auf der diese Modelle ausgeführt werden. (Die Neural Engine eignet sich eher für kleinere Anwendungen.) Normalerweise, wenn man kein Wissenschaftler ist, würde man dafür einen Serverdienst verwenden.

Faszinierend ist dabei, wie groß diese Modelle sind, was sie können und wie die Aussichten stehen, diese Fähigkeiten vielleicht doch irgendwann lokal in jedem guten Computer einbauen zu können.

Ein aktuelles Modell von Mistral, das sich besonders gut für die Auswertung von Bildern eignet, besteht aus 124 Milliarden Parametern. Das bedeutet: Man hat es mit einer Maschine zu tun, die 124 Milliarden „Drehknöpfe“ besitzt, die alle auf einen ganz bestimmten Wert eingestellt wurden. Es gibt noch weitaus größere Modelle.

Was kann es? Betrachten wir dazu das Bild unten. Es enthält (für meine Augen) einen braunen Pixelbrei, der sich bei näherem Hinsehen als eine Kolonie von Pelikanen herausstellt. Für Computer ist es sehr schwierig, solche Bilder zu verstehen – d.h. die Pixel in einzelne Objekte zu isolieren (wo fängt es an, wo hört es auf?), die einzelnen Objekte zu erkennen (ist es ein Pelikan?) und dann der gesamten Szene einen Sinn abzuringen (was machen die Pelikane, und warum?).



Die KI beschreibt das Bild folgendermaßen:

The image shows a large group of birds, specifically pelicans, congregated together on a rocky area near a body of water. These pelicans are densely packed together, some looking directly at the camera while others are engaging in various activities such as preening or resting. Pelicans are known for their large bills with a distinctive pouch, which they use for catching fish. The rocky terrain and the proximity to water suggest this could be a coastal area or an island where pelicans commonly gather in large numbers. The scene reflects a common natural behavior of these birds, often seen in their nesting or feeding grounds.

Die Detailtreue und die akkurate Erkennung der ganzen Szene ist atemberaubend. Vor einem Jahr hätte ich nicht gedacht, dass so etwas überhaupt möglich ist. Damals konnten Computer mit viel Mühe einen Tannenbaum von einem Fußball unterscheiden.

Atemberaubend ist übrigens auch Apples Übersetzen-Funktion. Der obige Text, von macOS übersetzt, lautet wie folgt:

Das Bild zeigt eine große Gruppe von Vögeln, insbesondere Pelikane, die sich auf einem felsigen Gebiet in der Nähe eines Gewässers versammelt haben. Diese Pelikane sind dicht zusammengepfercht, einige schauen direkt in die Kamera, während andere sich mit verschiedenen Aktivitäten wie Körperpflege oder Ausruhen beschäftigen. Pelikane sind bekannt für ihre großen Schnabel mit einem unverwechselbaren Beutel, den sie zum Fangen von Fischen verwenden. Das felsige Gelände und die Nähe zum Wasser deuten darauf hin, dass dies ein Küstengebiet oder eine Insel sein könnte, auf der sich Pelikane häufig in großer Zahl versammeln. Die Szene spiegelt ein gemeinsames natürliches Verhalten dieser Vögel wider, das oft in ihren Nist- oder Futterplätzen zu sehen ist.

Es ist etwas undurchsichtig, ob die Übersetzung komplett lokal durchgeführt wird oder ob Apples Server dabei nachhelfen. Es hängt auch von den gewählten Sprachen ab. In jedem Fall ist die Anwendung schlank genug, um lokal funktionieren zu können. Sie hat also bereits geschafft, was anderen Anwendungen noch bevorsteht.

Das Mistral-Modell, das die Bilderkennung durchgeführt hat, passt in eine Datei mit 200 GB. Das wäre für größere Macs durchaus vorstellbar. Natürlich passt nicht alles in den RAM, aber immerhin auf die SSD. Derzeit liegt das Limit bei den M-Prozessoren bei 192 GB RAM. Wenn man es in der nächsten Generation vielleicht verdoppeln könnte, lägen wir bei 384 GB RAM.

Wer weiß, wie schlank diese Modelle noch werden können? Wer weiß, wie schnell sich Speicher und Preise verändern? Es ist noch nicht allzu lange her, dass eine Festplatte mit 1 GB unvorstellbar groß war. Heute bestellen wir SSDs mit 1 TB (1.000 GB) und betrachten das als Grundausstattung.

Diskussion im Forum Aktuelle Sendung dazu: AI rückt näher: Wo stehen wir und wie geht es weiter?