Question 1

Peut-on faire tourner de l'IA ou un LLM sur un VPS sans GPU ?

Accepted Answer

Oui, pour les bonnes charges de travail. Les petits modèles ouverts et quantisés tournent sur CPU : les modèles 2B-3B dans 4-8 GB de RAM et les modèles 7B-8B Q4 GGUF dans environ 16 GB. Les embeddings, la classification, le résumé et l'orchestration RAG fonctionnent tous bien. L'entraînement sur GPU et l'inférence en temps réel de grands modèles ne tournent pas sur CPU et sont hors périmètre ici.

Question 2

De combien de RAM ai-je besoin pour héberger un LLM sur un VPS ?

Accepted Answer

La RAM est la contrainte déterminante pour l'inférence sur CPU. Prévoyez environ la taille du modèle quantisé plus une marge pour l'OS et le processus de service : environ 4-8 GB pour les modèles 2B-3B, et environ 16 GB pour un modèle 7B-8B en Q4 GGUF. Les bases vectorielles et les index d'embeddings nécessitent de la RAM supplémentaire en plus du modèle.

Question 3

Puis-je faire tourner Ollama sur un VPS X-ZoneServers ?

Accepted Answer

Oui. Avec un accès root complet sur un VPS Linux, vous pouvez installer Ollama ou llama.cpp et servir des modèles GGUF via une API locale compatible OpenAI sur le port 11434. Restez sur de petits modèles quantisés dimensionnés à votre RAM. Attendez-vous à quelques unités à une douzaine de tokens par seconde, ce qui convient aux tâches par lots et asynchrones.

Question 4

À quel point l'inférence LLM sur CPU est-elle rapide comparée à un GPU ?

Accepted Answer

Plus lente, et c'est le compromis honnête. Sur CPU, vous observez généralement de quelques unités à une douzaine de tokens par seconde, bien en dessous du débit GPU. C'est parfait pour résumer, extraire, classer, les embeddings et les jobs par lots de nuit, mais pas pour du chat interactif à haut débit. Pour du chat en temps réel, placez un modèle hébergé derrière une passerelle IA tournant sur votre VPS.

Question 5

Puis-je héberger un backend RAG ou une base vectorielle sur ces VPS ?

Accepted Answer

Oui. Le SSD NVMe et la RAM dédiée font de ces serveurs un bon choix pour des bases vectorielles auto-hébergées telles que Qdrant, Weaviate ou Postgres avec pgvector, aux côtés de Redis et d'une couche d'orchestration comme n8n, LangChain ou LlamaIndex. Une instance 4 vCPU / 16 GB / NVMe couvre la plupart des déploiements RAG en phase de démarrage.

Question 6

Proposez-vous des serveurs GPU pour l'entraînement ou le fine-tuning ?

Accepted Answer

Non. X-ZoneServers n'a aucun matériel GPU : l'entraînement sur GPU, le fine-tuning à grande échelle et l'inférence en temps réel de grands modèles sont hors périmètre. Nos VPS sont les mieux adaptés à l'IA appropriée au CPU : petits modèles, embeddings, RAG, automatisation et rôle de passerelle vers des modèles hébergés. Pour du calcul plus lourd, consultez nos serveurs dédiés.

VPS pour Charges de Travail IA et LLM (Optimisé CPU)

Pourquoi ça fonctionne

CPU uniquement, périmètre honnête

RAM et NVMe dédiés

Auto-hébergez Ollama et llama.cpp

Prêt pour RAG et base vectorielle

Passerelle IA et automatisation

Facturation horaire, plafonnée

Idéal pour

Questions fréquentes

Produits et cas d'usage associés

Déployez un VPS IA en moins de 60 secondes