VPS AI / LLM

VPS per carichi di lavoro AI e LLM (ottimizzato per CPU)

Un VPS per AI è un server KVM con CPU, RAM e storage NVMe dedicati su cui ospiti in self-hosting i tuoi carichi di lavoro AI invece di pagare a token. I VPS di X-ZoneServers sono solo CPU, quindi sono adatti a piccoli modelli quantizzati, embedding, orchestrazione RAG, database vettoriali e gateway API verso modelli ospitati. Non disponiamo di hardware GPU, quindi l'addestramento su GPU e l'inferenza in tempo reale di modelli di grandi dimensioni sono fuori ambito.

I nostri VPS per AI girano su virtualizzazione KVM con RAM, core CPU e NVMe SSD garantiti per istanza, un aspetto che conta perché l'inferenza LLM su CPU è vincolata dalla banda di memoria e dal margine di RAM, non dalla GPU. Un modello da 7B-8B quantizzato a Q4 GGUF richiede in genere circa 16 GB di RAM per caricarsi e servire comodamente; i modelli da 2B-3B e i modelli di embedding stanno in 4-8 GB. Ogni piano include banda da 1 Gbps non misurata, mitigazione DDoS fino a 1 Tbps, accesso root completo, uno SLA di uptime del 99,9% e attivazione in meno di 60 secondi in 12 datacenter in Europa e Nord America.

< 60s
Tempo di attivazione
1 Gbps
Rete non misurata
12
Sedi nel mondo
Fino a 1 Tbps
Protezione DDoS

Perché funziona

Infrastruttura calibrata sul carico di lavoro: risorse dedicate, non una macchina generica.

Solo CPU, con ambito trasparente

Nessun hardware GPU, quindi ti indirizziamo verso ciò che gira bene su CPU: piccoli modelli quantizzati, embedding, classificazione e RAG, non l'addestramento su GPU o l'inferenza in tempo reale di modelli di grandi dimensioni.

RAM e NVMe dedicate

KVM assegna a ogni VPS RAM, CPU e NVMe SSD garantiti. Il margine di RAM è il vero vincolo per l'inferenza LLM su CPU, e non sovrascriviamo mai la tua memoria.

Self-host di Ollama e llama.cpp

L'accesso root completo su Ubuntu, Debian, AlmaLinux o Rocky Linux ti consente di eseguire Ollama o llama.cpp servendo modelli GGUF da 3B-8B con un'API locale compatibile con OpenAI.

Pronto per RAG e database vettoriali

Ospita Qdrant, Weaviate o Postgres con pgvector come backend RAG privato, oltre a Redis e al tuo livello di orchestrazione, sulla stessa istanza con NVMe.

Gateway AI e automazione

Esegui un gateway o router API AI davanti a modelli ospitati e automatizza pipeline di agenti con n8n, Flowise, LangChain o LlamaIndex dietro un endpoint HTTP stabile.

Fatturazione oraria, con tetto

Paghi da EUR 0,0056/ora e attivi i server solo quando un job è in esecuzione. Il costo ha un tetto al prezzo mensile, così un VPS attivo 24/7 non supera mai il piano indicato.

Ideale per

Questi server sono adatti agli sviluppatori AI che vogliono proprietà dei dati, un'API HTTP stabile e nessun limite di frequenza per richiesta. Esegui Ollama o llama.cpp per piccoli modelli aperti, ospita Qdrant, Weaviate o Postgres con pgvector come backend RAG, e orchestra le pipeline con n8n, Flowise, LangChain o LlamaIndex. Molti team usano un VPS come gateway o router API AI davanti a modelli ospitati di OpenAI o Anthropic. Sii realista sulla velocità: aspettati da pochi a una dozzina circa di token al secondo su CPU, ideale per lavori batch e asincroni. L'addestramento e il fine-tuning su GPU sono fuori ambito sulla nostra flotta solo CPU.

  • Self-hosting di Ollama o llama.cpp per piccoli modelli quantizzati da 3B-8B
  • Backend RAG con Qdrant, Weaviate o pgvector
  • Job batch di embedding e classificazione di documenti
  • Gateway e router API AI verso modelli ospitati
  • Pipeline di automazione AI con n8n e Flowise
  • Backend di chatbot e agenti dietro un'API privata

Domande frequenti

Si può eseguire l'AI o un LLM su un VPS senza GPU?
Sì, per i carichi di lavoro giusti. I modelli aperti piccoli e quantizzati girano su CPU: modelli da 2B-3B in 4-8 GB di RAM e modelli da 7B-8B Q4 GGUF in circa 16 GB. Embedding, classificazione, riassunto e orchestrazione RAG funzionano tutti bene. L'addestramento su GPU e l'inferenza in tempo reale di modelli di grandi dimensioni non girano su CPU e sono fuori ambito qui.
Quanta RAM mi serve per ospitare un LLM su un VPS?
La RAM è il vincolo determinante per l'inferenza su CPU. Prevedi all'incirca la dimensione del modello quantizzato più un margine per l'OS e il processo di servizio: circa 4-8 GB per i modelli da 2B-3B e circa 16 GB per un modello da 7B-8B in Q4 GGUF. I database vettoriali e gli indici di embedding richiedono RAM aggiuntiva oltre al modello.
Posso eseguire Ollama su un VPS X-ZoneServers?
Sì. Con l'accesso root completo su un VPS Linux puoi installare Ollama o llama.cpp e servire modelli GGUF tramite un'API locale compatibile con OpenAI sulla porta 11434. Attieniti a piccoli modelli quantizzati dimensionati sulla tua RAM. Aspettati da pochi a una dozzina circa di token al secondo, il che è adatto a task batch e asincroni.
Quanto è veloce l'inferenza LLM su CPU rispetto a una GPU?
Più lenta, ed è un compromesso che dichiariamo apertamente. Su CPU vedi in genere da pochi a circa una dozzina di token al secondo, ben al di sotto del throughput di una GPU. Va bene per riassumere, estrarre, classificare, generare embedding e per job batch notturni, ma non per chat interattive ad alto throughput. Per la chat in tempo reale, metti un modello ospitato dietro un gateway AI in esecuzione sul tuo VPS.
Posso ospitare un backend RAG o un database vettoriale su questi VPS?
Sì. NVMe SSD e RAM dedicata rendono questi server adatti a database vettoriali self-hosted come Qdrant, Weaviate o Postgres con pgvector, insieme a Redis e a un livello di orchestrazione come n8n, LangChain o LlamaIndex. Un'istanza da 4 vCPU / 16 GB / NVMe copre la maggior parte dei deploy RAG in fase iniziale.
Offrite server GPU per addestramento o fine-tuning?
No. X-ZoneServers non dispone di hardware GPU, quindi l'addestramento su GPU, il fine-tuning su larga scala e l'inferenza in tempo reale di modelli di grandi dimensioni sono fuori ambito. I nostri VPS sono ideali per l'AI adatta alla CPU: modelli piccoli, embedding, RAG, automazione e per fungere da gateway verso modelli ospitati. Per calcoli più impegnativi, consulta i nostri server dedicati.

Attiva un VPS per AI in meno di 60 secondi

Avvia un VPS KVM ottimizzato per CPU per Ollama, RAG e automazione AI. Fatturazione oraria con tetto al prezzo mensile, con NVMe e protezione DDoS inclusi.