Question 1

Si può eseguire l'AI o un LLM su un VPS senza GPU?

Accepted Answer

Sì, per i carichi di lavoro giusti. I modelli aperti piccoli e quantizzati girano su CPU: modelli da 2B-3B in 4-8 GB di RAM e modelli da 7B-8B Q4 GGUF in circa 16 GB. Embedding, classificazione, riassunto e orchestrazione RAG funzionano tutti bene. L'addestramento su GPU e l'inferenza in tempo reale di modelli di grandi dimensioni non girano su CPU e sono fuori ambito qui.

Question 2

Quanta RAM mi serve per ospitare un LLM su un VPS?

Accepted Answer

La RAM è il vincolo determinante per l'inferenza su CPU. Prevedi all'incirca la dimensione del modello quantizzato più un margine per l'OS e il processo di servizio: circa 4-8 GB per i modelli da 2B-3B e circa 16 GB per un modello da 7B-8B in Q4 GGUF. I database vettoriali e gli indici di embedding richiedono RAM aggiuntiva oltre al modello.

Question 3

Posso eseguire Ollama su un VPS X-ZoneServers?

Accepted Answer

Sì. Con l'accesso root completo su un VPS Linux puoi installare Ollama o llama.cpp e servire modelli GGUF tramite un'API locale compatibile con OpenAI sulla porta 11434. Attieniti a piccoli modelli quantizzati dimensionati sulla tua RAM. Aspettati da pochi a una dozzina circa di token al secondo, il che è adatto a task batch e asincroni.

Question 4

Quanto è veloce l'inferenza LLM su CPU rispetto a una GPU?

Accepted Answer

Più lenta, ed è un compromesso che dichiariamo apertamente. Su CPU vedi in genere da pochi a circa una dozzina di token al secondo, ben al di sotto del throughput di una GPU. Va bene per riassumere, estrarre, classificare, generare embedding e per job batch notturni, ma non per chat interattive ad alto throughput. Per la chat in tempo reale, metti un modello ospitato dietro un gateway AI in esecuzione sul tuo VPS.

Question 5

Posso ospitare un backend RAG o un database vettoriale su questi VPS?

Accepted Answer

Sì. NVMe SSD e RAM dedicata rendono questi server adatti a database vettoriali self-hosted come Qdrant, Weaviate o Postgres con pgvector, insieme a Redis e a un livello di orchestrazione come n8n, LangChain o LlamaIndex. Un'istanza da 4 vCPU / 16 GB / NVMe copre la maggior parte dei deploy RAG in fase iniziale.

Question 6

Offrite server GPU per addestramento o fine-tuning?

Accepted Answer

No. X-ZoneServers non dispone di hardware GPU, quindi l'addestramento su GPU, il fine-tuning su larga scala e l'inferenza in tempo reale di modelli di grandi dimensioni sono fuori ambito. I nostri VPS sono ideali per l'AI adatta alla CPU: modelli piccoli, embedding, RAG, automazione e per fungere da gateway verso modelli ospitati. Per calcoli più impegnativi, consulta i nostri server dedicati.

VPS per carichi di lavoro AI e LLM (ottimizzato per CPU)

Perché funziona

Solo CPU, con ambito trasparente

RAM e NVMe dedicate

Self-host di Ollama e llama.cpp

Pronto per RAG e database vettoriali

Gateway AI e automazione

Fatturazione oraria, con tetto

Ideale per

Domande frequenti

Prodotti e casi d'uso correlati

Attiva un VPS per AI in meno di 60 secondi