2026 Mac: Alle Modelle & beste lokale KI-Modelle
– Ollama einfach erklärt
Sie kennen ChatGPT, möchten aber KI offline oder mit Daten, die den Mac nicht verlassen? Ollama ist meist der erste Anlaufpunkt – kein einzelnes Modell, sondern die App zum Herunterladen und Ausführen lokaler Modelle. Schwierig wird die Kombination aus Unified Memory und Modellgröße: Neu kaufen: mind. 24 GB, 32 GB für den Alltag, 64 GB, bevor 70B-Modelle zum Dauerwerkzeug werden (Stand 2026-05-26).
ChatGPT im Browser ist vertraut. Lokale KI auf dem Mac funktioniert anders: Gewichte liegen auf der Festplatte, die Inferenz läuft auf Ihrem Chip, und nichts muss das Gerät verlassen, wenn Sie es nicht wollen. Bezeichnungen wie 8B, 14B oder 70B klingen nach einer Rangliste – auf Apple Silicon entscheidet aber vor allem wie viel Unified Memory Sie konfiguriert haben, nicht ob auf dem Karton M4 oder M5 steht.
1Was Ollama ist – und was nicht
Denken Sie in drei Ebenen: Tool, Modell, Hardware. Ollama ist das Tool – es lädt Modelldateien, startet eine lokale API und lässt Sie Tags wie qwen2.5:7b wechseln. Voraussetzung: macOS 14+; auf Apple Silicon nutzt Ollama Metal.
Qwen, DeepSeek, Gemma und Llama sind getrennte Modellfamilien verschiedener Anbieter. Ollama ersetzt sie nicht – es ist der Weg, sie auf dem Mac zu betreiben. Ein Tag wie 7b steht für rund sieben Milliarden Parameter: mehr Kapazität bedeutet meist bessere Antworten und höheren RAM-Bedarf. Quantisierung (oft Q4) verkleinert die Datei und tauscht etwas Genauigkeit gegen mehr Modell im gleichen Speicher.
2Warum Unified Memory zuerst zählt
Bei Apple Silicon teilen sich CPU, GPU und Neural Engine einen Unified-Memory-Speicher. Modellgewichte, Ihr Kontextfenster (Gesprächsverlauf im RAM), macOS und Apps wie Xcode oder der Browser ziehen aus demselben Topf – ein starker Geekbench-Wert hilft wenig, wenn der Speicher voll ist.
Ist der Speicher erschöpft, nutzt macOS Swap auf der SSD. Kleine Modelle ruckeln vielleicht; große werden unbenutzbar. Ein 70B-Quant auf 32 GB für eine kurze Demo kann klappen – als täglicher Code-Assistent ist das etwas anderes. Für die meisten gilt: ab 64 GB fühlen sich 70B-Klassen wie ein echtes Dauerwerkzeug an, nicht wie ein Demo-Trick.
3Mac-Modellpalette 2026 (aktuell im Handel)
Die Tabelle folgt Apples Konfigurations-Obergrenzen per 2026-05-26. Keine Spekulation zu unangekündigten Modellen oder Preisen.
| Mac | RAM-Obergrenze | Sweet Spot lokale KI |
|---|---|---|
| MacBook Air / iMac (M4) | 32 GB | Leichter Chat, gelegentliches Coden |
| Mac mini (M4 / M4 Pro) | 32 GB / 64 GB | Preis-Leistung DesktopTipp |
| MacBook Pro (M4-Familie) | bis 128 GB | Mobil + schwerere Modelle |
| Mac Studio / Mac Pro | 128–256 GB+ | RAG, Agents, Multi-Modell |
4Beste Ollama-Modelle nach Speicher
„Lädt sich“ heißt nicht „läuft täglich stabil“. Die Tabelle gilt für typische Q4-Quants und einen normalen Desktop im Hintergrund.
| RAM | Empfohlen | Kurz testen | Nicht für Dauerbetrieb |
|---|---|---|---|
| 8 GB | llama3.2:3b | qwen2.5:7b | 14B+ |
| 16 GB | qwen2.5:7b | deepseek-r1:8b | 32B + schweres RAG |
| 24 GB | qwen2.5:14b | 32B Q4 | 70B |
| 32 GB | 14B / 32B Q4 | 70B Kurztest | 70B als Hauptmodell |
| 64 GB+ | 32B, 70B Q4 | Langkontext-Agents | 235B+ Klasse |
Nach Aufgabe wählen, nicht nach Hype
- →Chat / Notizen: 7B–8B (z. B.
qwen2.5:7b,gemma2:9b) - →Code:
qwen2.5-coderoderdeepseek-coderin der Größe, die Ihr RAM erlaubt - →Reasoning:
deepseek-r18B–14B auf 24–32-GB-Maschinen - →Vision: multimodale Tags wie
llava– extra RAM für Bilder einplanen - →RAG / Agent-Basis: 14B–32B mit Reserve; langer Kontext frisst schnell RAM
Start: ollama run qwen2.5:7b. Zeigt die Aktivitätsanzeige unter normaler Arbeit starken Swap, zuerst RAM erhöhen – nicht blind ein größeres Tag jagen.
5Kaufstufen für 2026
Einstieg (24 GB): Minimum für einen neuen Mac mit lokaler KI – 7B–14B im Alltag, gelegentliche 32B-Tests.
Langfristig (32 GB): Sweet Spot für Entwickler und Creator mit 14B–32B täglich.
Schwerlast (64 GB): wenn 70B Q4 Arbeitspferd sein soll, nicht Demo.
Studio (128 GB+): Multi-Modell, großer Kontext, dauerhafte lokale Agents – Mac Studio.
16 GB oder weniger: Ollama ausprobieren – ungeeignet, wenn lokale KI der Kaufgrund ist.
6Warum der Mac mini zu lokaler KI passt
Unified Memory und Metal geben Ollama auf Apple Silicon viel Durchsatz pro Watt. macOS liefert Unix, Homebrew, Docker und SSH ohne Treiberfrust. Ein Mac mini M4 verbraucht im Leerlauf nur wenige Watt, bleibt leise und kann Modelle 24/7 am Schreibtisch oder im Schrank laufen lassen. Gatekeeper, SIP und FileVault reduzieren zudem die Angriffsfläche gegenüber einem dauerhaft laufenden Windows-PC.
Für viele ist ein Mac mini M4 mit 24 GB oder mehr der günstigste Weg, diesen Leitfaden umzusetzen – oder Sie testen denselben Stack vor dem Kauf auf einem Remote-Mac unter realer Last.
- 1Ollama = Tool; Qwen/DeepSeek & Co. = Modelle; RAM setzt die Grenze
- 224 / 32 / 64 GB ≈ 7B / 14–32B / 70B im Dauerbetrieb
- 3Start mit
qwen2.5:7b, dann Speicher oder Modell nach echtem Swap-Bedarf skalieren