AI / LLM VPS

VPS voor AI- en LLM-workloads (CPU-geoptimaliseerd)

Een VPS voor AI is een KVM-server met toegewezen CPU, RAM en NVMe-opslag waar u AI-workloads self-host in plaats van per token te betalen. X-ZoneServers-VPS'en zijn CPU-only, dus ze passen bij kleine gequantiseerde modellen, embeddings, RAG-orkestratie, vector-databases en API-gateways naar gehoste modellen. We hebben geen GPU-hardware, dus GPU-training en realtime-inferentie van grote modellen vallen buiten het bereik.

Onze AI-VPS'en draaien op KVM-virtualisatie met gegarandeerde RAM, CPU-cores en NVMe-SSD per instance, wat belangrijk is omdat CPU-LLM-inferentie wordt begrensd door geheugenbandbreedte en RAM-speling, niet door GPU. Een 7B-8B-model gequantiseerd naar Q4 GGUF heeft doorgaans rond de 16 GB RAM nodig om comfortabel te laden en te serveren; 2B-3B-modellen en embeddingmodellen passen in 4-8 GB. Elk plan bevat 1 Gbps ongelimiteerde bandbreedte, DDoS-mitigatie tot 1 Tbps, volledige roottoegang, een uptime-SLA van 99,9% en uitrol in minder dan 60 seconden in 12 datacenters in Europa en Noord-Amerika.

< 60s
Uitroltijd
1 Gbps
Ongelimiteerd netwerk
12
Wereldwijde locaties
Tot 1 Tbps
DDoS-bescherming

Waarom het werkt

Infrastructuur afgestemd op de workload — toegewezen resources, geen generieke server.

CPU-only, eerlijk afgebakend

Geen GPU-hardware, dus we wijzen u op wat goed draait op CPU: kleine gequantiseerde modellen, embeddings, classificatie en RAG, geen GPU-training of realtime-inferentie van grote modellen.

Toegewezen RAM en NVMe

KVM geeft elke VPS gegarandeerde RAM, CPU en NVMe-SSD. RAM-speling is de echte beperking voor CPU-LLM-inferentie, en we overboeken uw geheugen nooit.

Self-host Ollama en llama.cpp

Volledige roottoegang op Ubuntu, Debian, AlmaLinux of Rocky Linux laat u Ollama of llama.cpp draaien die 3B-8B GGUF-modellen serveren met een OpenAI-compatibele lokale API.

Klaar voor RAG en vector-DB

Host Qdrant, Weaviate of Postgres met pgvector als private RAG-backend, plus Redis en uw orkestratielaag, op dezelfde NVMe-ondersteunde instance.

AI-gateway en automatisering

Draai een AI-API-gateway of router vóór gehoste modellen, en automatiseer agent-pipelines met n8n, Flowise, LangChain of LlamaIndex achter een stabiel HTTP-endpoint.

Facturering per uur, afgetopt

Betaal vanaf EUR 0,0056/uur en start servers alleen op wanneer een job draait. De kosten zijn afgetopt op de maandprijs, zodat een VPS die 24/7 draait nooit boven het vermelde plan uitkomt.

Ideaal voor

Deze servers passen bij AI-bouwers die data-eigenaarschap, een stabiele HTTP-API en geen ratelimieten per request willen. Draai Ollama of llama.cpp voor kleine open modellen, host Qdrant, Weaviate of Postgres met pgvector als RAG-backend, en orkestreer pipelines met n8n, Flowise, LangChain of LlamaIndex. Veel teams gebruiken een VPS als AI-API-gateway of router vóór gehoste modellen van OpenAI of Anthropic. Wees realistisch over snelheid: verwacht enkele tot lage dubbele cijfers aan tokens per seconde op CPU, ideaal voor batch- en asynchroon werk. GPU-training en fine-tuning vallen buiten het bereik op onze CPU-only fleet.

  • Ollama of llama.cpp self-hosten voor kleine gequantiseerde 3B-8B-modellen
  • RAG-backends met Qdrant, Weaviate of pgvector
  • Embedding- en documentclassificatie-batchjobs
  • AI-API-gateways en routers naar gehoste modellen
  • n8n- en Flowise-AI-automatiseringspipelines
  • Chatbot- en agent-backends achter een private API

Veelgestelde vragen

Kun je AI of een LLM draaien op een VPS zonder GPU?
Ja, voor de juiste workloads. Kleine en gequantiseerde open modellen draaien op CPU: 2B-3B-modellen in 4-8 GB RAM en 7B-8B Q4 GGUF-modellen in rond de 16 GB. Embeddings, classificatie, samenvatting en RAG-orkestratie werken allemaal goed. GPU-training en realtime-inferentie van grote modellen draaien niet op CPU en vallen hier buiten het bereik.
Hoeveel RAM heb ik nodig om een LLM op een VPS te hosten?
RAM is de bepalende beperking voor CPU-inferentie. Reken op ruwweg de gequantiseerde modelgrootte plus speling voor het OS en het serveerproces: ongeveer 4-8 GB voor 2B-3B-modellen, en rond de 16 GB voor een 7B-8B-model in Q4 GGUF. Vector-databases en embedding-indexen hebben aanvullende RAM nodig bovenop het model.
Kan ik Ollama draaien op een X-ZoneServers-VPS?
Ja. Met volledige roottoegang op een Linux-VPS kunt u Ollama of llama.cpp installeren en GGUF-modellen serveren via een lokale OpenAI-compatibele API op poort 11434. Houd het bij kleine gequantiseerde modellen die op uw RAM zijn afgestemd. Verwacht enkele tot lage dubbele cijfers aan tokens per seconde, wat past bij batch- en asynchrone taken.
Hoe snel is CPU-LLM-inferentie vergeleken met een GPU?
Trager, en dat is de eerlijke afweging. Op CPU ziet u doorgaans enkele tot ongeveer een dozijn tokens per seconde, ruim onder de GPU-doorvoer. Dat is prima voor samenvatten, extraheren, classificeren, embeddings en nachtelijke batchjobs, maar niet voor interactieve chat met hoge doorvoer. Zet voor realtime-chat een gehost model achter een AI-gateway die op uw VPS draait.
Kan ik een RAG-backend of vector-database op deze VPS'en hosten?
Ja. NVMe-SSD en toegewezen RAM maken deze servers geschikt voor zelf gehoste vector-databases zoals Qdrant, Weaviate of Postgres met pgvector, naast Redis en een orkestratielaag zoals n8n, LangChain of LlamaIndex. Een instance met 4 vCPU / 16 GB / NVMe dekt de meeste vroege RAG-deployments.
Bieden jullie GPU-servers voor training of fine-tuning?
Nee. X-ZoneServers heeft geen GPU-hardware, dus GPU-training, fine-tuning op schaal en realtime-inferentie van grote modellen vallen buiten het bereik. Onze VPS'en zijn het meest geschikt voor CPU-passende AI: kleine modellen, embeddings, RAG, automatisering en fungeren als gateway naar gehoste modellen. Voor zwaardere rekenkracht, zie onze dedicated servers.

Gerelateerde producten en toepassingen

Rol een AI-VPS uit in minder dan 60 seconden

Start een CPU-geoptimaliseerde KVM-VPS voor Ollama, RAG en AI-automatisering. Facturering per uur afgetopt op de maandprijs, met NVMe en DDoS-bescherming inbegrepen.