Die Entscheidung für ein lokales Sprachmodell ist gefallen – jetzt geht es an die Umsetzung. Dieser Artikel richtet sich an IT-Leiter und Administratoren, die ein lokales LLM im Unternehmensumfeld aufsetzen wollen, ohne dabei ein KI-Experte sein zu müssen.
Wir zeigen den direkten Weg von der Hardware-Auswahl bis zum laufenden Team-Zugang: mit Ollama als lokale Modelllaufzeitumgebung und Open WebUI als benutzerfreundlichem Interface für alle Mitarbeiter.
Ollama ist eine Open-Source-Software, die das Herunterladen, Verwalten und Ausführen von lokalen Sprachmodellen auf einem einzelnen Befehl reduziert. Was früher komplexe Python-Setups, CUDA-Konfigurationen und umfangreiches ML-Know-how erforderte, ist mit Ollama in wenigen Minuten erledigt.
Für Unternehmen ist Ollama besonders attraktiv, weil:
„Ollama macht aus einem lokalen Sprachmodell einen Dienst – so wie nginx aus einer Webseite einen Server macht.”
Die wichtigste Entscheidung vor dem Setup ist die Hardware. Das kritische Limit ist der VRAM (Grafikspeicher der GPU) – das Modell muss vollständig in den VRAM passen, um mit GPU-Beschleunigung zu laufen. Ohne GPU ist Betrieb möglich, aber deutlich langsamer.
Empfehlungen nach Teamgröße:
| Team | Modell-Empfehlung | VRAM-Bedarf | Beispiel-GPU | Investition |
|---|---|---|---|---|
| 5–15 Nutzer | Llama 4 Scout 8B (q4) | 6–8 GB | NVIDIA RTX 4060 Ti | ab 3.500 € |
| 15–40 Nutzer | Mistral Small 24B (q4) | 14–16 GB | NVIDIA RTX 4090 | ab 8.000 € |
| 40–100 Nutzer | Llama 4 Maverick 34B (q4) | 22–24 GB | 2× RTX 4090 | ab 15.000 € |
| 100–200 Nutzer | Llama 4 70B (q4) | 40–48 GB | 4× RTX 4090 | ab 28.000 € |
Neben der GPU gilt: 64 GB RAM sind für die meisten Unternehmensszenarien ausreichend, dazu eine schnelle NVMe-SSD für das Modell-Speicher. Für sehr hohe Anforderungen empfiehlt sich ein dedizierter Server mit ECC-RAM.
CPU-only-Betrieb: Auch ohne dedizierte GPU lässt sich Ollama betreiben – etwa auf einem vorhandenen Server mit schnellen CPU-Kernen (AMD Ryzen Threadripper, Intel Xeon). Die Verarbeitungsgeschwindigkeit ist deutlich geringer (ca. 5–15 Token/Sekunde statt 50–100), für nicht-zeitkritische Anwendungen aber durchaus praxistauglich.
Linux (empfohlen für Produktivbetrieb):
curl -fsSL https://ollama.com/install.sh | shOllama startet automatisch als systemd-Dienst und ist nach der Installation unter http://localhost:11434 erreichbar.
Windows: Installer von ollama.com herunterladen und ausführen. Ollama läuft dann als Windows-Dienst im Hintergrund.
macOS:
brew install ollama
ollama serveNach der Installation prüfen, ob Ollama läuft:
ollama list# Llama 4 Scout (empfehlenswert für den Einstieg)
ollama pull llama4:scout
# Oder Mistral Small für stärkere Leistung
ollama pull mistral-small
# Modell direkt in der Konsole testen
ollama run llama4:scoutEin kurzer Test im Terminal reicht, um zu bestätigen, dass das Modell korrekt geladen ist und antwortet. Für den produktiven Einsatz im Team braucht es allerdings ein benutzerfreundliches Interface.
Open WebUI ist eine selbst hostbare Weboberfläche, die optisch stark an ChatGPT erinnert. Sie verbindet sich direkt mit Ollama und bietet:
Installation via Docker (empfohlen):
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainNach dem Start ist Open WebUI unter http://[server-ip]:3000 erreichbar. Beim ersten Aufruf wird ein Admin-Konto angelegt. Danach können weitere Benutzer manuell oder per E-Mail-Einladung hinzugefügt werden.
„Mit Open WebUI haben auch nicht-technische Mitarbeiter sofortigen, intuitiven Zugang zum lokalen LLM – ohne jede Installation auf ihrem eigenen Gerät.”
Damit alle Mitarbeiter im lokalen Netz Zugriff erhalten, muss der Server im Firmennetz erreichbar sein. Empfohlene Vorgehensweise:
Feste interne IP-Adresse vergeben: Den KI-Server im DHCP-Server des Routers mit einer festen IP konfigurieren, z.B. 192.168.1.100.
Firewall-Regeln: Zugriff auf Port 3000 (Open WebUI) nur aus dem internen Netz erlauben. Port 11434 (Ollama API) nur für interne Dienste freigeben, nicht ins Internet.
Optionaler Reverse Proxy (für HTTPS und eigene Domain): Mit nginx oder Traefik lässt sich Open WebUI unter einer internen Domain wie ai.firmenname.local erreichbar machen, inklusive SSL-Zertifikat. Das verbessert die Benutzerfreundlichkeit erheblich.
LDAP/Active Directory-Integration: Für Unternehmen mit Active Directory bietet Open WebUI eine LDAP-Authentifizierung – Mitarbeiter loggen sich dann mit ihren bestehenden Windows-Zugangsdaten an.
Im Unternehmensumfeld sollten folgende Punkte geregelt sein:
Modell zu groß für verfügbaren VRAM: Das Modell lädt, aber der Betrieb ist extrem langsam oder bricht ab. Lösung: Kleinere Quantisierungsstufe (z.B. q4_K_M statt q8) oder Modell mit weniger Parametern wählen.
Ollama nicht als Dienst konfiguriert: Nach einem Serverneustart ist Ollama nicht verfügbar. Lösung: systemctl enable ollama sicherstellt den automatischen Start.
Open WebUI verbindet sich nicht mit Ollama: Häufig ein Netzwerkproblem. Die Ollama-URL in Open WebUI muss von localhost auf host.docker.internal geändert werden, wenn beide in Docker laufen.
Zu langsame Antwortzeiten: Prüfen, ob die GPU tatsächlich genutzt wird (ollama ps zeigt, ob ein Modell GPU- oder CPU-Modus nutzt). Bei GPU-Betrieb sollten 50–100 Token/Sekunde erreichbar sein.
Ein lokales LLM im Unternehmen aufzusetzen ist heute keine mehrwöchige IT-Großbaustelle mehr. Mit Ollama und Open WebUI ist ein funktionsfähiges, teamtaugliches System in einem Arbeitstag einsatzbereit – vorausgesetzt, die Hardware steht bereit.
Das Ergebnis: Alle Mitarbeiter erhalten einen sicheren, schnellen KI-Assistenten, ohne dass ein einziges Byte das Unternehmensnetzwerk verlässt.
Sie möchten wissen, wie künstliche Intelligenz auch in Ihrem Unternehmen Mehrwert schaffen kann? In einem kostenlosen Erstgespräch besprechen wir Ihre Möglichkeiten.
Oder schreiben Sie uns direkt: [email protected] | +43 660 31 96 763