VPS IA / LLM

VPS para cargas de trabalho de IA e LLM (otimizado para CPU)

Um VPS para IA é um servidor KVM com CPU, RAM e armazenamento NVMe dedicados onde auto-aloja cargas de trabalho de IA em vez de pagar por token. Os VPS da X-ZoneServers são apenas com CPU, pelo que são adequados a modelos pequenos quantizados, embeddings, orquestração de RAG, bases de dados vetoriais e gateways de API para modelos alojados. Não temos hardware GPU, pelo que o treino em GPU e a inferência em tempo real de modelos grandes estão fora de âmbito.

Os nossos VPS de IA funcionam com virtualização KVM com RAM, núcleos de CPU e NVMe SSD garantidos por instância, o que importa porque a inferência de LLM em CPU é limitada pela largura de banda da memória e pela margem de RAM, não pela GPU. Um modelo de 7B-8B quantizado para Q4 GGUF precisa normalmente de cerca de 16 GB de RAM para carregar e servir confortavelmente; os modelos de 2B-3B e os modelos de embedding cabem em 4-8 GB. Cada plano inclui 1 Gbps de largura de banda sem limite de tráfego, mitigação de DDoS até 1 Tbps, acesso root completo, um SLA de disponibilidade de 99,9% e implementação em menos de 60 segundos em 12 datacenters na Europa e na América do Norte.

< 60s
Tempo de implementação
1 Gbps
Rede sem limite de tráfego
12
Localizações globais
Até 1 Tbps
Proteção contra DDoS

Porque funciona

Infraestrutura adaptada à carga de trabalho — recursos dedicados, não uma máquina genérica.

Apenas CPU, com honestidade no âmbito

Sem hardware GPU, por isso orientamo-lo para o que funciona bem em CPU: modelos pequenos quantizados, embeddings, classificação e RAG, não treino em GPU nem inferência em tempo real de modelos grandes.

RAM e NVMe dedicados

O KVM atribui a cada VPS RAM, CPU e NVMe SSD garantidos. A margem de RAM é a verdadeira limitação para a inferência de LLM em CPU, e nunca sobrelotamos a sua memória.

Auto-aloje Ollama e llama.cpp

O acesso root completo em Ubuntu, Debian, AlmaLinux ou Rocky Linux permite-lhe executar Ollama ou llama.cpp servindo modelos GGUF de 3B-8B com uma API local compatível com OpenAI.

Pronto para RAG e DB vetorial

Aloje Qdrant, Weaviate ou Postgres com pgvector como backend RAG privado, além de Redis e a sua camada de orquestração, na mesma instância com NVMe.

Gateway de IA e automação

Execute um gateway ou router de API de IA à frente de modelos alojados e automatize pipelines de agentes com n8n, Flowise, LangChain ou LlamaIndex por trás de um endpoint HTTP estável.

Faturação à hora, com limite

Pague desde EUR 0,0056/hora e crie servidores apenas quando uma tarefa for executada. O custo tem limite no preço mensal, pelo que um VPS a funcionar 24/7 nunca ultrapassa o plano indicado.

Ideal para

Estes servidores são adequados a quem constrói IA e quer propriedade dos dados, uma API HTTP estável e sem limites de taxa por pedido. Execute Ollama ou llama.cpp para modelos abertos pequenos, aloje Qdrant, Weaviate ou Postgres com pgvector como backend RAG, e orquestre pipelines com n8n, Flowise, LangChain ou LlamaIndex. Muitas equipas usam um VPS como gateway ou router de API de IA à frente de modelos alojados da OpenAI ou da Anthropic. Seja realista quanto à velocidade: espere de um dígito a uma dezena de tokens por segundo em CPU, ideal para trabalho em lote e assíncrono. O treino e o fine-tuning em GPU estão fora de âmbito na nossa frota apenas com CPU.

  • Auto-alojar Ollama ou llama.cpp para modelos pequenos quantizados de 3B-8B
  • Backends RAG com Qdrant, Weaviate ou pgvector
  • Tarefas em lote de embedding e classificação de documentos
  • Gateways e routers de API de IA para modelos alojados
  • Pipelines de automação de IA com n8n e Flowise
  • Backends de chatbot e de agentes por trás de uma API privada

Perguntas frequentes

É possível executar IA ou um LLM num VPS sem GPU?
Sim, para as cargas de trabalho certas. Modelos abertos pequenos e quantizados funcionam em CPU: modelos de 2B-3B em 4-8 GB de RAM e modelos de 7B-8B Q4 GGUF em cerca de 16 GB. Embeddings, classificação, sumarização e orquestração de RAG funcionam todos bem. O treino em GPU e a inferência em tempo real de modelos grandes não funcionam em CPU e estão fora de âmbito aqui.
De quanta RAM preciso para alojar um LLM num VPS?
A RAM é a limitação determinante para a inferência em CPU. Planeie aproximadamente o tamanho do modelo quantizado mais margem para o OS e o processo de serviço: cerca de 4-8 GB para modelos de 2B-3B e cerca de 16 GB para um modelo de 7B-8B em Q4 GGUF. As bases de dados vetoriais e os índices de embedding precisam de RAM adicional para além do modelo.
Posso executar o Ollama num VPS da X-ZoneServers?
Sim. Com acesso root completo num VPS Linux pode instalar o Ollama ou o llama.cpp e servir modelos GGUF através de uma API local compatível com OpenAI na porta 11434. Atenha-se a modelos pequenos quantizados dimensionados à sua RAM. Espere de um dígito a uma dezena de tokens por segundo, o que é adequado a tarefas em lote e assíncronas.
Qual é a velocidade da inferência de LLM em CPU em comparação com uma GPU?
Mais lenta, e essa é a contrapartida honesta. Em CPU costuma ver de alguns a cerca de uma dúzia de tokens por segundo, bastante abaixo do débito de uma GPU. Isso é adequado para sumarizar, extrair, classificar, embeddings e tarefas em lote noturnas, mas não para chat interativo de alto débito. Para chat em tempo real, coloque um modelo alojado por trás de um gateway de IA a funcionar no seu VPS.
Posso alojar um backend RAG ou uma base de dados vetorial nestes VPS?
Sim. O NVMe SSD e a RAM dedicada tornam estes servidores adequados a bases de dados vetoriais auto-alojadas, como o Qdrant, o Weaviate ou o Postgres com pgvector, juntamente com o Redis e uma camada de orquestração como o n8n, o LangChain ou o LlamaIndex. Uma instância de 4 vCPU / 16 GB / NVMe cobre a maioria das implementações RAG em fase inicial.
Oferecem servidores com GPU para treino ou fine-tuning?
Não. A X-ZoneServers não tem hardware GPU, pelo que o treino em GPU, o fine-tuning em escala e a inferência em tempo real de modelos grandes estão fora de âmbito. Os nossos VPS são ideais para IA adequada a CPU: modelos pequenos, embeddings, RAG, automação e funcionar como gateway para modelos alojados. Para computação mais exigente, consulte os nossos servidores dedicados.

Implemente um VPS de IA em menos de 60 segundos

Crie um VPS KVM otimizado para CPU para Ollama, RAG e automação de IA. Faturação à hora com limite no preço mensal, com NVMe e proteção contra DDoS incluídos.