Die Auswahl des richtigen Open-Source-Sprachmodells ist eine der zentralen Entscheidungen beim Aufbau einer lokalen KI-Infrastruktur. Zu groß gewählt, und das Modell läuft nicht flüssig auf der verfügbaren Hardware. Zu klein gewählt, und die Antwortqualität enttäuscht. Dazu kommen Stärken und Schwächen in bestimmten Domänen – Deutsch, Coding, Reasoning, Dokumentenanalyse.
Dieser Artikel gibt eine praxisorientierte Übersicht über die wichtigsten Open-Source-Modelle des Jahres 2026 und hilft dabei, die richtige Wahl für Ihren konkreten Unternehmenseinsatz zu treffen.
Bevor wir die Modelle vergleichen, ein kurzer Exkurs zu einem Begriff, der bei der Modellauswahl immer wieder auftaucht: Quantisierung.
Sprachmodelle bestehen aus Milliarden von Gewichten – Zahlenwerten, die das Modell-Wissen repräsentieren. Diese Zahlen werden standardmäßig als 32- oder 16-Bit-Fließkommazahlen gespeichert. Quantisierung komprimiert diese Werte auf 4 oder 8 Bit – ähnlich wie ein Bild von 48 Megapixel auf 12 Megapixel skaliert wird. Das Ergebnis braucht deutlich weniger VRAM, verliert dabei aber etwas Qualität.
Gängige Quantisierungsstufen:
| Kürzel | Bits | VRAM-Bedarf (7B Modell) | Qualitätsverlust |
|---|---|---|---|
| q8 | 8-bit | ca. 8 GB | minimal |
| q4_K_M | 4-bit | ca. 4,5 GB | gering (empfohlen) |
| q3_K_M | 3-bit | ca. 3,5 GB | spürbar |
„q4_K_M ist der Sweet Spot: deutlich reduzierter VRAM-Bedarf bei Qualitätsverlusten, die in der Praxis kaum auffallen.”
Für den Unternehmenseinsatz gilt die Faustregel: q4_K_M ist fast immer der richtige Einstiegspunkt.
Meta hat Llama 4 Scout und Llama 4 Maverick am 5. April 2026 veröffentlicht – mit einem grundlegenden Architekturwechsel: Beide Modelle setzen erstmals auf Mixture-of-Experts (MoE) und sind nativ multimodal (Text, Bild, Video).
Stärken: Breite Sprachkompetenz inklusive Deutsch, nativ multimodal, extrem langes Kontextfenster (Scout), breite Community.
Schwächen: Maverick benötigt Hochleistungs-Hardware; MoE-Architektur stellt höhere Anforderungen an Inferenz-Frameworks.
Lizenz: Llama-Community-Lizenz (kommerzielle Nutzung erlaubt unter bestimmten Bedingungen).
Mistral AI aus Frankreich bleibt der bedeutendste europäische Open-Source-Modell-Anbieter. Mit Mistral Small 4 hat Mistral Anfang 2026 ein Unified-Modell veröffentlicht, das Instruction-Following, tiefes Reasoning und multimodalen Chat in einem Modell vereint – mit 119B Gesamtparametern (MoE), einem 256K-Kontextfenster und konfigurierbarem Reasoning-Modus.
Für kleinere Deployments ist die Mistral 3 Familie (3B, 8B, 14B dense) weiterhin eine ausgezeichnete Wahl, ebenfalls unter Apache 2.0.
Stärken: Exzellente Mehrsprachigkeit (besonders für europäische Sprachen inkl. Deutsch), konfigurierbares Reasoning, strukturierte Ausgaben (JSON), Apache-2.0-Lizenz ohne Einschränkungen.
Schwächen: Mistral Small 4 benötigt deutlich mehr VRAM als Scout-Klasse-Modelle; für On-Premise-Betrieb auf Standard-Hardware ist die Mistral-3-Familie besser geeignet.
Lizenz: Apache 2.0 (vollständig kommerzielle Nutzung ohne Einschränkungen).
Am 2. April 2026 hat Google Gemma 4 veröffentlicht – einen deutlichen Generationssprung gegenüber Gemma 3. Alle Modelle der Familie sind nativ multimodal (Text, Bild, Video; E2B und E4B zusätzlich mit Audio-Input) und wurden auf über 140 Sprachen trainiert.
Stärken: Exzellente Effizienz, nativ multimodal, sehr breite Mehrsprachigkeit (140+ Sprachen), nun unter Apache 2.0 (Verbesserung gegenüber Gemma 3).
Schwächen: Deutsch-Kenntnisse noch leicht hinter Mistral; sehr kleine Modelle (E2B/E4B) für komplexe Unternehmenstexte weiterhin begrenzt.
Lizenz: Apache 2.0 (vollständig kommerziell nutzbar, keine Einschränkungen).
Phi-4 ist Microsofts kleines, aber erstaunlich leistungsfähiges Modell. Die Familie ist seit Ende 2025 / Anfang 2026 deutlich gewachsen:
Stärken: Hervorragendes Reasoning, Mathematik und Codegenerierung, sehr geringer Ressourcenbedarf, wachsende Multimodal-Fähigkeiten.
Schwächen: Schwächer in allgemeinen Konversations- und Kreativaufgaben, Deutsch weiterhin hinter Mistral und Llama 4.
Lizenz: MIT-Lizenz (vollständig offen, kommerziell nutzbar).
DeepSeek hat mit R1 und V3 besondere Stärken in komplexem mehrstufigem Reasoning und Coding demonstriert. Das mit Spannung erwartete DeepSeek R2 ist Stand April 2026 noch nicht öffentlich verfügbar – aktuelle Berichte deuten auf ein Modell mit bis zu 1,2 Billionen Parametern (MoE, 78B aktiv) hin, das auf Huawei-Hardware trainiert wird.
Für lokales Deployment empfehlen sich aktuell die destillierten, kleineren DeepSeek-Varianten (z.B. DeepSeek-R1-Distill-Llama-70B), die auf Consumer-Hardware laufen.
Stärken: Sehr starkes Reasoning und Coding, teils besser als viel größere Modelle, kosteneffiziente destillierte Versionen.
Schwächen: Trainingsdaten mit chinesischem Schwerpunkt; für manche Compliance-Anforderungen im DACH-Raum relevant. R2 noch nicht verfügbar.
Lizenz: MIT-Lizenz.
| Anwendungsfall | Empfehlung | Begründung |
|---|---|---|
| Allgemeine Textgenerierung (DE) | Mistral Small 4 / Mistral 3 14B | Beste Deutsch-Kompetenz, Apache 2.0 |
| Dokumentenanalyse / RAG | Llama 4 Scout | 10M-Token-Kontextfenster, nativ multimodal |
| E-Mail und Kommunikation | Llama 4 Scout | Schnell, 12 GB VRAM, multimodal |
| Code-Assistenz | Phi-4 oder DeepSeek R1-Distill | Speziell für Code und Reasoning optimiert |
| Mathematik / Finanzanalyse | Phi-4-Reasoning oder DeepSeek R1 | Überlegenes mehrstufiges Reasoning |
| Mehrsprachig (DE/EN/FR/IT) | Gemma 4 31B oder Mistral Small 4 | Gemma 4 mit 140+ Sprachen; Mistral mit EU-Fokus |
| Schnelle Antworten auf einfache Fragen | Gemma 4 E4B | Sehr geringe Latenz, 128K Kontext, Apache 2.0 |
| Bild- und Dokumentenverarbeitung | Gemma 4 E4B / Llama 4 Scout | Beide nativ multimodal (Bild, Video) |
In der Praxis entscheidet oft die vorhandene oder geplante Hardware, welches Modell eingesetzt wird. Die folgende Tabelle hilft bei der Wahl:
| Verfügbarer VRAM | Empfohlenes Modell | Hinweis |
|---|---|---|
| 6–8 GB | Gemma 4 E2B / E4B | Nativ multimodal, 128K Kontext |
| 12–16 GB | Llama 4 Scout (q4) | 10M Kontext, multimodal |
| 16–20 GB | Phi-4-Reasoning-Vision 15B | Starkes Reasoning, multimodal |
| 24 GB | Mistral 3 14B (q8) oder Gemma 4 26B (q4) | Gute Qualität für Standard-Hardware |
| 48 GB+ | Llama 4 Maverick oder Gemma 4 31B | Frontier-Qualität lokal |
„Wählen Sie das größte Modell, das auf Ihrer Hardware flüssig läuft. Ein 34B-Modell auf passender Hardware schlägt ein 70B-Modell, das auf ungeeigneter Hardware streamt.”
Für Unternehmen in Österreich und Deutschland ist die Qualität deutschsprachiger Ausgaben entscheidend. In der Praxis zeigen sich deutliche Unterschiede:
Sehr gutes Deutsch:
Gutes Deutsch:
Akzeptables Deutsch, aber Englisch bevorzugt:
Für kundennahe Anwendungen oder Kommunikation in Deutsch empfiehlt sich ein Test mit eigenem typischem Firmen-Content, bevor eine Entscheidung gefällt wird.
Die richtige Modellwahl hängt von drei Faktoren ab: dem Anwendungsfall, der verfügbaren Hardware und der Sprachanforderung. Für die meisten KMUs im DACH-Raum ist Mistral 3 14B weiterhin ein ausgezeichneter Allrounder – mit starkem Deutsch, guter Leistung auf Standard-Hardware und offener Apache-2.0-Lizenz. Für kompaktes, multimodales Deployment ist Gemma 4 E4B eine hervorragende neue Option. Wer ein größeres Hardware-Budget hat, greift zu Llama 4 Scout für maximale Kontextlänge oder Gemma 4 31B für beste Open-Source-Benchmark-Ergebnisse.
Wichtig: Die Modelllandschaft entwickelt sich schnell. Was heute gilt, kann in sechs Monaten überholt sein. Ein gutes lokales Setup erlaubt es, Modelle jederzeit auszutauschen – ohne Vertrag, ohne Abhängigkeit.
Sie möchten wissen, wie künstliche Intelligenz auch in Ihrem Unternehmen Mehrwert schaffen kann? In einem kostenlosen Erstgespräch besprechen wir Ihre Möglichkeiten.
Oder schreiben Sie uns direkt: [email protected] | +43 660 31 96 763