KI auf Deinem Computer, nicht in der Cloud

Ich verwenden gerne ChatGPT, Copilot & Co. Wie siehts aber damit aus, wenn ich beispielsweise vertrauliche Dokumente von der KI analysieren lassen will? Dafür wäre eine Text-KI interessant, die ohne Cloud und nur bei mir lokal am Computer läuft. Dieser Artikel erklärt, wie’s geht.

[Bild nur für eingeloggte Mitglieder sichtbar]

Abb. 1: lokale KI am Computer, Quelle: ChatGPT

Um lokale KI – wir beschränken und in diese Artikel nur auf Text-KI – auszuführen brauchen wir zwei Teile. Ein KI-Modell (die eigentliche Intelligenz) und ein KI-Programm (beispielsweise ein Chat-Programm) welches dieses Modell ausführt und mit dem Benutzer interagieren kann. Das KI-Modell ist eigentlich nur ein mathematisches Modell, ohne irgendwelchen Zugriff nach außen – ein Bauplan für eine Art künstliches Hirn in einer Schachtel, welches vom KI-Programm gebrauchsfähig gemacht wird.

[Bild nur für eingeloggte Mitglieder sichtbar]

Abb. 2: lokale KI, Quelle: Autor

Was ist ein KI Modell?

Ein KI Modell ist zumeist eine oder mehrere sehr große Datei(en), welche im Format für das KI-Programm spezifisch ist(sind). Das Modell enthält unter Anderem vielen Milliarden an gelernten Informationen, wie die Neuronen des künstlichen Neuronalen Netzes miteinander verbunden sind. Diese Inhalte werden als „Parameter“ bezeichnet. Ein 9B KI-Modell ist damit beispielsweise eines mit 9 Milliarden Parametern.

Der Hersteller eines KI-Modells gibt diesem einen Namen – beispielsweise nennt Meta (der Mutterkonzern von Facebook,…) seine KI-Modelle Llama. Zusätzlich enthalten Modellnamen oft noch zusätzliche Hinweise auf deren Version und spezielle Fähigkeiten – beispielsweise Meta Llama 3.2 11B Vision Instruct ist die Version 3.2 des Llama Modells mit 11 Milliarden Parameter, das zusätzlich zum Text auch Bilder interpretieren kann (Vision), und für Benutzerinteraktion (Instruct) optimiert wurde.

Viele KI-Programme verwenden für das KI-Modell das .GGUF Dateiformat, welches vom Open-Source Programm llama.cpp eingeführt wurde. Dieses Programm ist extrem innovativ, aber etwas komplex in der Handhabung. Viele weitere Programme (wie ollama und LM-Studio) verwenden intern den KI-Programmcode von llama.cpp und damit dessen Dateiformat.

Viele KI-Modelle sind – ähnlich zu Open-Source Programmen – gratis (wenn ggf. auch mit Einschränkungen) verfügbar. Allerdings ist bei diesen meist das Lernmaterial (ähnlich dem Quellcode) nicht öffentlich zugänglich, sie werden daher als „open-weights KI-Modelle“ bezeichnet. Internetportale wie beispielsweise huggignface.co bieten viele dieser Modelle/Dateien zum Herunterladen an.

KI-Modell Quantisierung

Das hat nichts mit Quantencomputern zu tun, sondern bezieht sich darauf, dass aus Geschwindigkeitsgründen und damit das Modell in den vorhandenen Speicher passt, auf die Genauigkeit der Rechnung verzichtet wird. Normalerweise berechnen wir Neuronale Netze mit 32-Bit Gleitkomma-Zahlen Genauigkeit (fp32), zumeist reicht aber 16-Bit Gleitkomma (fp16) Genauigkeit auch aus. Mit minimalem Qualitätsverlust ist auch eine Reduktion auf 8-Bit Ganzzahlen (Q8) bzw. weniger (Q5 bis Q1) möglich – allerdings nimmt bei weniger als 4-Bit die Genauigkeit stark ab, und die Antworten werden spürbar schlechter. Zusätzlich zur Länge (beispielsweise Q4) wird auch noch das Quantisierungs-Verfahren angegeben. Damit ist beispielsweise Q4_K_M – ein 4-Bit, mit dem K-Quantifizierungs-Verfahren (zumeist besser als Q4_0) und mittlerer (M) Kompression gerechnetes Modell. Ein Q4 (4-Bit) Modell ist ca 8x kleiner als das ursprüngliche (32-Bit) KI-Modell, und auch beinahe um diesen Faktor schneller zu berechnen.
Tipp: Q8 ist optimal, Q4_K_M geht meistens noch gut, ab Q3_K_M können in der Antwort spürbare Fehler auftreten (ev. macht es hier Sinn auf ein weniger stark quantisiertes Modell mit weniger Parametern auszuweichen).

Mythos KI-Beschleuniger

Das Marketing von Microsoft, Apple und den PC-Herstellern macht uns NPUs oder sonstige KI-Beschleuniger mit vielen TOPS schmackhaft. Aber diese sind für gute lokale Text-KIs eigentlich völlig uninteressant. Die NPU in Copilot+ PCs beispielsweise wird aktuell von Windows nur für Simultanübersetzung, Videoverbesserung und ähnliches verwendet und ist für Anwendungsprogramme extrem kompliziert, damit bisher von keinem der üblichen KI-Programme unterstützt. Microsofts Copilot läuft derzeit nur in der Cloud und nicht am Copilot+ PC.

Für das Ausführen von lokalen KI-Abfragen sind drei Kriterien entscheidend:

Eine moderne CPU mit integriertem Grafikprozessor oder externer Grafikkarte. Die CPU im Snapdragon X Chip ist beispielsweise schneller für lokale KI, als dessen eingebaute GPU und NPU. Bei Apple’s M-Prozessoren ist deren eingebaute Neuronal-Einheit (ANE) weitgehend nutzlos für lokale KI-Anwendungen des Benutzers.
RAM mit hoher Bandbreite – mindestens 100GB/s (Grafikkarten sind mir ihrem RAM weit schneller)
Viel RAM – mindestens 16GB (bei Grafikkarten, eine mit 16GB RAM oder mehr).

Die Größe des freien RAMs bestimmt, ob eine bestimmte KI überhaupt ausgeführt werden kann. Prozessor- und RAM-Geschwindigkeit bestimmen im Wesentlichen die Geschwindigkeit der Antwort. Und lokale KI-Beschleunigungshardware wird derzeit von keinem der gängigen KI-Programme unterstützt.

LM-Studio

Ich verwende gerne LM-Studio, ein (derzeit) gratis KI-Programm mit hoher Funktionalität und gutem Komfort. LM-Studio gibts für Windows/MacOS/Linux.

[Bild nur für eingeloggte Mitglieder sichtbar]

Abb. 3: LM-Studio Benutzeroberfläche, Quelle: LM-Studio

LM-Studio bietet eine ähnliche Chat-Oberfläche wie OpenAI ChatGPT. Allerdings völlig lokal, nur am eigenen Rechner. Für dies werden lokal herunter geladene KI-Modelle benötigt – LM-Studio stellt dafür einen eigenen Such und Auswahldialog sowie Verwaltungsdialoge für die heruntergeladenen KI-Modelle zur Verfügung. Hier eine kurze Einführung.

Modellauswahl in LM-Studio

Welches der Modelle ist für mich das Richtige? LM-Studio ermöglicht mir ein Suchen, und zeigt mir auch, ob ein gefundenes Modell auf meinem Rechner laufen wird. Modelle mit mehr Parametern sind meist besser als die mit weniger, es kommt aber auf das Einsatzgebiet an. Im Internet gibts aktuelle Hitparaden (Leaderboards) für KI-Modelle zu speziellen Fachgebieten (beispielsweise Programmieren/Coding, Mathematik,…).

Alle Modelle können Texte erzeugen, einige können aber mehr:

Reasoner-Modelle erzeugen vor der Antwort einen Nachdenkprozess („Think“), der ggf. länger dauert, und bei dem man mitlesen kann. Dies eignet sich für Antworten, die auch beim Menschen ein Nachdenken erfordern würden. Normalerweise antwortet die KI ja spontan, ohne nachzudenken.
Vision-Modelle können zusätzlich zu den Texteingaben auch in die Applikation geladene Bilder (über Büroklammersymbol im Eingabefenster) als Eingaben verwenden. Damit können beispielsweise Bildinhalte analysiert bzw. erklärt werden.
Tool-Use Modelle können einen Programmcode für die Verwendung von Werkzeugen erzeugen. Dies ist derzeit nur dafür gedacht, wenn LM-Studio von anderen Programmen über die Programmierschnittstelle (API) aufgerufen wird.

KI-Dialog mit Dokumenten

LM-Studio unterstützt, dass Text-Dokumente in die Applikation geladen werden (Büroklammer-Symbol im Eingabefenster), und innerhalb dieses Dialogs dann diese Dokumente als Wissen für Fragen verwendet werden können (Technisch: RAG).

Viel Spass und viel Erfolg beim Experimentieren mit lokaler KI!

Andreas Kunar

Informatiker, Marketer und Fotograf. Versucht Funktion, Nutzen und Risken komplexer Informationstechnologie verständlich darzustellen. Arbeitete in lokalen und internationalen Rollen, beispielsweise als Geschäftsfeldleiter bei Microsoft. Windows/MacOS/Linux KI-Enthusiast.

KI auf Deinem Computer, nicht in der Cloud

Was ist ein KI Modell?

KI-Modell Quantisierung

Mythos KI-Beschleuniger

LM-Studio

Modellauswahl in LM-Studio

KI-Dialog mit Dokumenten

Kommentar absenden Antwort abbrechen