KI / LLM VPS

VPS für KI- und LLM-Workloads (CPU-optimiert)

Ein VPS für KI ist ein KVM-Server mit dediziertem CPU, RAM und NVMe-Speicher, auf dem Sie KI-Workloads selbst hosten, statt pro Token zu bezahlen. Die VPS von X-ZoneServers sind CPU-only und eignen sich daher für kleine quantisierte Modelle, Embeddings, RAG-Orchestrierung, Vektordatenbanken und API-Gateways zu gehosteten Modellen. Wir verfügen über keine GPU-Hardware, daher liegen GPU-Training und Echtzeit-Inferenz großer Modelle außerhalb des Leistungsumfangs.

Unsere KI-VPS laufen auf KVM-Virtualisierung mit garantiertem RAM, CPU-Kernen und NVMe-SSD pro Instanz, was deshalb wichtig ist, weil CPU-LLM-Inferenz durch Speicherbandbreite und RAM-Reserve begrenzt wird, nicht durch die GPU. Ein auf Q4 GGUF quantisiertes 7B-8B-Modell benötigt typischerweise rund 16 GB RAM, um komfortabel geladen und bereitgestellt zu werden; 2B-3B-Modelle und Embedding-Modelle passen in 4-8 GB. Jeder Tarif beinhaltet unlimitierte 1-Gbps-Bandbreite, bis zu 1 Tbps DDoS-Mitigation, vollen Root-Zugriff, ein Verfügbarkeits-SLA von 99,9 % und eine Bereitstellung in unter 60 Sekunden über 12 Rechenzentren in Europa und Nordamerika.

< 60s
Bereitstellungszeit
1 Gbps
Unlimitiertes Netzwerk
12
Standorte weltweit
Bis zu 1 Tbps
DDoS-Schutz

Warum es funktioniert

Infrastruktur, die zur Auslastung passt – dedizierte Ressourcen statt einer Standardumgebung.

CPU-only, ehrlich abgegrenzt

Keine GPU-Hardware, daher weisen wir Sie auf das hin, was auf der CPU gut läuft: kleine quantisierte Modelle, Embeddings, Klassifizierung und RAG – nicht GPU-Training oder Echtzeit-Inferenz großer Modelle.

Dediziertes RAM und NVMe

KVM gibt jedem VPS garantiertes RAM, CPU und NVMe-SSD. RAM-Reserve ist die eigentliche Einschränkung für CPU-LLM-Inferenz, und wir überbuchen Ihren Arbeitsspeicher niemals.

Ollama und llama.cpp selbst hosten

Voller Root-Zugriff auf Ubuntu, Debian, AlmaLinux oder Rocky Linux erlaubt Ihnen, Ollama oder llama.cpp zu betreiben, die 3B-8B-GGUF-Modelle mit einer OpenAI-kompatiblen lokalen API bereitstellen.

Bereit für RAG und Vektor-DB

Hosten Sie Qdrant, Weaviate oder Postgres mit pgvector als privates RAG-Backend, dazu Redis und Ihre Orchestrierungsschicht, auf derselben NVMe-gestützten Instanz.

KI-Gateway und Automatisierung

Betreiben Sie ein KI-API-Gateway oder einen Router vor gehosteten Modellen und automatisieren Sie Agent-Pipelines mit n8n, Flowise, LangChain oder LlamaIndex hinter einem stabilen HTTP-Endpunkt.

Stündliche Abrechnung, gedeckelt

Zahlen Sie ab EUR 0,0056/Stunde und fahren Sie Server nur dann hoch, wenn ein Job läuft. Die Kosten sind auf den Monatspreis gedeckelt, sodass ein rund um die Uhr laufender VPS nie über den angegebenen Tarif hinausgeht.

Ideal für

Diese Server passen zu KI-Entwicklern, die Datenhoheit, eine stabile HTTP-API und keine Rate-Limits pro Anfrage wünschen. Betreiben Sie Ollama oder llama.cpp für kleine offene Modelle, hosten Sie Qdrant, Weaviate oder Postgres mit pgvector als RAG-Backend und orchestrieren Sie Pipelines mit n8n, Flowise, LangChain oder LlamaIndex. Viele Teams nutzen einen VPS als KI-API-Gateway oder Router vor gehosteten Modellen von OpenAI oder Anthropic. Seien Sie bei der Geschwindigkeit realistisch: Erwarten Sie auf der CPU einstellige bis niedrige zweistellige Token pro Sekunde, ideal für Batch- und asynchrone Arbeit. GPU-Training und Fine-Tuning liegen auf unserer CPU-only-Flotte außerhalb des Leistungsumfangs.

  • Selbst gehostetes Ollama oder llama.cpp für kleine quantisierte 3B-8B-Modelle
  • RAG-Backends mit Qdrant, Weaviate oder pgvector
  • Batch-Jobs für Embeddings und Dokumentenklassifizierung
  • KI-API-Gateways und Router zu gehosteten Modellen
  • KI-Automatisierungspipelines mit n8n und Flowise
  • Chatbot- und Agent-Backends hinter einer privaten API

Häufig gestellte Fragen

Kann man KI oder ein LLM auf einem VPS ohne GPU betreiben?
Ja, für die richtigen Workloads. Kleine und quantisierte offene Modelle laufen auf der CPU: 2B-3B-Modelle in 4-8 GB RAM und 7B-8B-Q4-GGUF-Modelle in rund 16 GB. Embeddings, Klassifizierung, Zusammenfassung und RAG-Orchestrierung funktionieren alle gut. GPU-Training und Echtzeit-Inferenz großer Modelle laufen nicht auf der CPU und liegen hier außerhalb des Leistungsumfangs.
Wie viel RAM benötige ich, um ein LLM auf einem VPS zu hosten?
RAM ist die entscheidende Einschränkung für CPU-Inferenz. Planen Sie ungefähr die Größe des quantisierten Modells plus Reserve für das OS und den Bereitstellungsprozess: etwa 4-8 GB für 2B-3B-Modelle und rund 16 GB für ein 7B-8B-Modell in Q4 GGUF. Vektordatenbanken und Embedding-Indizes benötigen zusätzlich RAM über das Modell hinaus.
Kann ich Ollama auf einem X-ZoneServers-VPS betreiben?
Ja. Mit vollem Root-Zugriff auf einem Linux-VPS können Sie Ollama oder llama.cpp installieren und GGUF-Modelle über eine lokale OpenAI-kompatible API auf Port 11434 bereitstellen. Bleiben Sie bei kleinen quantisierten Modellen, die auf Ihr RAM abgestimmt sind. Erwarten Sie einstellige bis niedrige zweistellige Token pro Sekunde, was zu Batch- und asynchronen Aufgaben passt.
Wie schnell ist CPU-LLM-Inferenz im Vergleich zu einer GPU?
Langsamer, und das ist der ehrliche Kompromiss. Auf der CPU sehen Sie typischerweise einige wenige bis rund ein Dutzend Token pro Sekunde, deutlich unter dem GPU-Durchsatz. Das ist in Ordnung für Zusammenfassen, Extrahieren, Klassifizieren, Embeddings und nächtliche Batch-Jobs, aber nicht für hochdurchsatzfähigen interaktiven Chat. Für Echtzeit-Chat platzieren Sie ein gehostetes Modell hinter einem KI-Gateway, das auf Ihrem VPS läuft.
Kann ich ein RAG-Backend oder eine Vektordatenbank auf diesen VPS hosten?
Ja. NVMe-SSD und dediziertes RAM machen diese Server zu einer guten Wahl für selbstgehostete Vektordatenbanken wie Qdrant, Weaviate oder Postgres mit pgvector, dazu Redis und eine Orchestrierungsschicht wie n8n, LangChain oder LlamaIndex. Eine Instanz mit 4 vCPU / 16 GB / NVMe deckt die meisten RAG-Deployments im Frühstadium ab.
Bieten Sie GPU-Server für Training oder Fine-Tuning an?
Nein. X-ZoneServers verfügt über keine GPU-Hardware, daher liegen GPU-Training, Fine-Tuning im großen Maßstab und Echtzeit-Inferenz großer Modelle außerhalb des Leistungsumfangs. Unsere VPS eignen sich am besten für CPU-geeignete KI: kleine Modelle, Embeddings, RAG, Automatisierung und den Einsatz als Gateway zu gehosteten Modellen. Für anspruchsvollere Rechenleistung sehen Sie sich unsere dedizierten Server an.

Verwandte Produkte & Anwendungsfälle

Stellen Sie einen KI-VPS in unter 60 Sekunden bereit

Starten Sie einen CPU-optimierten KVM-VPS für Ollama, RAG und KI-Automatisierung. Stündliche Abrechnung, gedeckelt auf den Monatspreis, mit inkludiertem NVMe und DDoS-Schutz.