Im Jahr 2023 verbrauchten, laut Daten des US-Energieministeriums, die Rechenzentren in den USA etwa 175 TWh Strom – rund 4,4 % des gesamten Energieverbrauchs des Landes. Schätzungsweise entfiel etwa ein Drittel davon, also etwa 1,5 % des Gesamtverbrauchs, auf KI-Rechenzentren – und dieser Anteil wächst rasant. Aktuelle Prognosen gehen davon aus, dass KI bis 2028 zwischen 3–6 % des gesamten US-Energieverbrauchs ausmachen könnte. Und das ist ohne Berücksichtigung der zunehmenden Energiekosten durch KI auf Endgeräten oder den notwendigen Internet-/Kommunikationsnetzwerken. Wird unsere KI-Nutzung alle globalen Energiespar-Ziele über den Haufen werfen und die globale Erwärmung weiter verschärfen?

Abb. 1: KI-Energieverbrauch – Rechenzentrum & Persönlich, Quelle: ChatGPT

Der Wettlauf zur künstlichen Superintelligenz (ASI) spielt hier eine große Rolle. Das Training fortgeschrittener KI-Modelle erfordert enorme Rechenleistung, riesige Datenmengen und gewaltige Energiemengen. Doch das ist etwas, das wir als Einzelne kaum beeinflussen können.

Konzentrieren wir uns daher auf unsere persönliche KI-Nutzung – wie viel Energie verbraucht jede/r Einzelne durch KI-Nutzung?

Wie viel Energie verbraucht unsere persönliche KI-Nutzung?

Einzelne KI-Abfragen – also das, was du und ich täglich machen – benötigen weitaus weniger Rechenleistung und Energie als das Training. Aber es sind viele Menschen, die viele Dinge von KI verlangen. Meist über Smartphones, Computer oder Geräte, die zunehmend auch KI-gestützte Robotik enthalten werden (die Anfragen selbstständig ausführen – auch stellvertretend für uns).

Diese Anfragen werden entweder in der Cloud verarbeitet oder zunehmend lokal auf dem Gerät berechnet.

KI in der Cloud profitiert von geteilten Ressourcen, hat häufig eine bessere Qualität und kann schneller sein – je nach Preismodell. Aber sie benötigt die Infrastruktur und den Overhead des Kommunikationsnetzwerks. Die Energieauswirkungen sind dabei schwer zu messen.

Lokale KI ist potenziell besser für Datenschutz und Privatsphäre und kann sich die Hardware-Ressourcen mit anderen Funktionen des Geräts teilen – dein Computer oder Smartphone macht ja nicht nur KI. Doch Rechenleistung und Energieverbrauch (z. B. Akkulaufzeit) stellen Grenzen dar. Die gute Nachricht: Technologische Innovationen in der KI führen derzeit zu einer bis zu 10-fachen (!) Effizienzsteigerung pro Jahr. Mein Laptop beispielsweise kann inzwischen eine KI ausführen, die vergleichbar oder besser ist als ChatGPT/GPT-4 vor zwei Jahren – und das ohne riesige Rechenzentren. Für viele meiner Anwendungen reicht das aus – und die Entwicklung geht weiter.

Ich denke daher, es ist realistisch anzunehmen, dass lokale KI künftig einen erheblichen Teil der persönlichen KI-Nutzung übernehmen wird – wie heute PC und Smartphone einen Großteil unserer digitalen Aufgaben erfüllen. Und den Energieverbrauch lokaler KI können wir messen – das ist der Fokus dieses Beitrags.

Zunächst: Was bedeutet das für heutige Hardware? Egal ob Laptop, Notebook, Tablet oder Smartphone – die meisten Geräte werden (noch) nicht ausschließlich für KI gekauft. Wir lassen die (Energie-)Kosten der Herstellung daher außen vor und betrachten nur den laufenden Betrieb.

Werfen wir also einen Blick auf die aktuellen Kosten lokaler KI und was das für unsere zukünftigen Geräte bedeutet.

Energieverbrauch einzelner lokaler KI-Abfragen

Es ist kompliziert. Bevor wir beantworten können, wie viel Energie eine einzelne KI-Antwort verbraucht, müssen wir ein bisschen technisch werden…

Jede KI-Antwort umfasst drei Schritte:

  1. Analyse des Inputs, also der Benutzeranfrage.
    Dies nennt man Prompt-Verarbeitung (manchmal auch “Prefill”).
  2. Optionales „Denken“.
    Bis Mitte 2024 antworteten KIs spontan, also ohne diesen Zwischenschritt. Inzwischen können manche KIs „nachdenken“ – meist durch Generieren unsichtbarer Wörter, um bessere Antworten zu geben. Technisch ähnelt das Schritt 3.
  3. Generierung der sichtbaren Antwort, Wort für Wort.
    Zusammen mit den unsichtbaren „Denk-Wörtern“ spricht man hier von Token-Generierung (auch „Decoding“ genannt).

Der Energieaufwand dieser Schritte variiert stark – daher müssen wir mit Durchschnittswerten arbeiten.

Basierend auf meinen eigenen Prompts und Rückmeldungen von ChatGPT enthalten Antworten im Schnitt etwa doppelt so viele Wörter wie die Eingabe. Technisch ist Prompt-Verarbeitung ca. 10x effizienter und schneller als die Token-Generierung. Deshalb ist ihr Energieverbrauch derzeit vernachlässigbar – außer bei Prompts mit Bildern oder großen Dokumenten. Daher ignorieren wir die Prompt-Verarbeitung vorerst, auch wenn sie künftig relevanter wird.

Das interne „Denken“ erzeugt im Durchschnitt ähnlich viele Wörter wie die endgültige Antwort. Nicht jede Antwort erfordert das, aber da es die Qualität verbessert, ist es oft vorhanden. Wir nehmen also an: Durch „Denken“ erzeugt die KI im Schnitt 1 ⅓ Mal so viele Wörter wie in der Antwort sichtbar sind. Der Energieaufwand ist dabei vergleichbar mit der Ausgabe selbst – und dieser Anteil wird wohl zunehmen.

Noch ein technisches Detail – „Token“:
KI-Modelle arbeiten nicht mit vollständigen Wörtern, sondern mit Wortteilen (Token). Im Englischen liegt der Schnitt bei etwa 0,75 Token pro Wort, im Deutschen bei etwa 1,2 Token pro Wort.

Wir gehen also davon aus, dass im Schnitt 1 Token pro Wort der Antwort generiert werden muss – für viele Sprachen liegt der tatsächliche Wert höher.

Wie viel Energie wird für einen Token benötigt?

Noch immer kompliziert — Geschwindigkeit und Energiebedarf der Token-Generierung hängen stark vom Modell und der verwendeten Hardware ab.

Beispiel: Mein persönlicher KI-Rechner ist ein Apple MacBook Pro mit M4 Pro Chip. Darauf läuft lokal das sehr gute QwQ 32B Modell von Alibaba. Es generiert etwa 12 Token pro Sekunde bei ca. 38 W Stromverbrauch. (Strom für Display, Netzwerk, Speicher usw. wird dabei ignoriert.)

Die Generierung ist damit rund dreimal schneller als das durchschnittliche menschliche Lese- und Versteh-Tempo – also schnell genug, auch wenn das „Denken“ mal länger dauert.

Die Antwortqualität ist schwächer als bei aktuellen Cloud-KIs, aber vergleichbar mit ChatGPT vor etwa 1,5 Jahren. Daher ist das ein guter Ausgangspunkt für unsere Berechnungen – und jedes Jahr wird’s besser.

Eigene Schätzungen zum lokalen Energieverbrauch

Wenn meine KI lokal auf dem Laptop durchgehend arbeitet, verbraucht sie rund ein Drittel so viel Strom wie mein TV + Lautsprecher gleichzeitig. Etwas mehr als 2 Stunden davon reichen, um einen Text in Länge von „Harry Potter und der Stein der Weisen“ (76.000 Wörter) zu erzeugen.

Die Generierung eines einzelnen Bildes – je nach Auflösung und Qualität – verbraucht mehr Energie als Text. Typisch sind etwa 0,001 kWh pro Bild (z. B. lokal mit ComfyUI und FLUX.1 bei 1024×1024 Pixel).

Wie sieht es mit anderer energieeffizienter lokaler KI aus? Hier einige meiner Messungen mit verschiedenen Rechnern und Modellen: einem Workstation-CPU (Apple M2 Max Mac Studio), meinem Laptop und einem NVIDIA Jetson Orin NX16 (typisch für KI-Endgeräte).

Tabelle 1: Meine Leistungs- und Verbrauchsmessungen verschiedener Computer

Was sagen uns diese Zahlen für zukünftige KI-Hardware?

Ich denke, die obigen Zahlen geben gute Hinweise für zukünftige Hardware-Entscheidungen:

Je größer das Modell (z. B. 7B = 7 Milliarden Parameter), desto besser meist die Qualität – aber langsamer und energiehungriger. Auch die Hardware ist entscheidend:
Je schneller und effizienter die GPU, desto besser die Prompt-Verarbeitung – hier glänzt der Jetson.
Je schneller und energieeffizienter der GPU-RAM, desto besser die Token-Generierung – hier glänzt der M4 Pro.

Eine technische Randnotiz, warum NVIDIA so effizient ist: NVIDIA integriert spezialisierte Hardware wie Tensor-Cores und Unterstützung für AI-Datentypen (int4, fp4/8) direkt in ihre GPUs. Apple, Qualcomm & Co. setzen zwar auf dedizierte KI-Beschleuniger (z. B. Apple ANE), aber deren Programmiermodell ist geschlossen und nicht mit der GPU-Architektur verzahnt. Daher kommen diese nur begrenzt zum Einsatz, etwa für Gesichts- oder Objekterkennung – und tragen in unseren Messungen kaum zur Energieeffizienz bei.

Da die meisten KI-Nutzungsszenarien auf Token-Generierung setzen, hat NVIDIA für Sommer 2024 vergleichbare Produkte wie den M4 Pro angekündigt (z. B. DGX Spark für Desktops, Jetson AGX Thor für Embedded/Robotik). Mal sehen, was die Konkurrenz bringt.

Zukunft: Mehr KI, aber auch mehr Effizienz

Dank rasanter Innovation sinken die Kosten für ein konstantes Maß an KI-„Intelligenz“ dramatisch – oft um den Faktor 10x pro Jahr. KI wird smarter (und ressourcenhungriger), gleichzeitig aber energieeffizienter.

Doch unsere Nutzung wächst noch schneller als die Effizienz – und damit steigt der gesamte Energieverbrauch der KI weiter – egal ob lokal oder im Rechenzentrum. Leider wächst damit auch ihr Beitrag zur globalen Erwärmung. Unsere Hoffnung liegt darin, dass uns KI selbst hilft, Lösungen zur Begrenzung oder gar Umkehrung zu finden.


Ich hoffe dieser Artikel war interessantes Lesematerial und freue mich wie immer über Rückmeldungen!

P.S.: Dieser Artikel ist eine ganz leicht korrigierte Übersetzung meines englischen Originalartikels auf medium.com durch chatGPT. Wie gut findet ihr die Sprachqualität?