VPS AI / LLM

VPS dla obciążeń AI i LLM (zoptymalizowany pod CPU)

VPS dla AI to serwer KVM z dedykowanym CPU, RAM i pamięcią NVMe, na którym hostujesz samodzielnie obciążenia AI zamiast płacić za token. VPS od X-ZoneServers działają wyłącznie na CPU, więc pasują do małych skwantyzowanych modeli, osadzeń, orkiestracji RAG, baz wektorowych i bram API do hostowanych modeli. Nie mamy sprzętu GPU, więc trenowanie na GPU i inferencja dużych modeli w czasie rzeczywistym są poza zakresem.

Nasze VPS dla AI działają na wirtualizacji KVM z gwarantowanym RAM, rdzeniami CPU i NVMe SSD na instancję, co ma znaczenie, ponieważ inferencja LLM na CPU jest ograniczona przepustowością pamięci i zapasem RAM, a nie GPU. Model 7B-8B skwantyzowany do Q4 GGUF zwykle potrzebuje około 16 GB RAM, by wczytać się i obsługiwać komfortowo; modele 2B-3B i modele osadzeń mieszczą się w 4-8 GB. Każdy plan obejmuje przepustowość 1 Gbps bez limitu transferu, mitygację DDoS do 1 Tbps, pełny dostęp root, gwarancję dostępności SLA 99,9% i uruchomienie w mniej niż 60 sekund w 12 centrach danych w Europie i Ameryce Północnej.

< 60s
Czas uruchomienia
1 Gbps
Sieć bez limitu transferu
12
Lokalizacji na świecie
Do 1 Tbps
Ochrona DDoS

Dlaczego to działa

Infrastruktura dopasowana do obciążenia — dedykowane zasoby, a nie zwykły serwer.

Wyłącznie CPU, uczciwie określony zakres

Brak sprzętu GPU, więc kierujemy Cię ku temu, co dobrze działa na CPU: małe skwantyzowane modele, osadzenia, klasyfikacja i RAG, a nie trenowanie na GPU czy inferencja dużych modeli w czasie rzeczywistym.

Dedykowany RAM i NVMe

KVM daje każdemu VPS gwarantowany RAM, CPU i NVMe SSD. Zapas RAM jest realnym ograniczeniem dla inferencji LLM na CPU, a my nigdy nie nadsubskrybujemy Twojej pamięci.

Hostuj samodzielnie Ollama i llama.cpp

Pełny dostęp root na Ubuntu, Debian, AlmaLinux lub Rocky Linux pozwala uruchomić Ollama lub llama.cpp obsługujące modele 3B-8B GGUF z lokalnym API kompatybilnym z OpenAI.

Gotowe na RAG i bazy wektorowe

Hostuj Qdrant, Weaviate lub Postgres z pgvector jako prywatny backend RAG, a także Redis i swoją warstwę orkiestracji, na tej samej instancji opartej na NVMe.

Brama AI i automatyzacja

Uruchom bramę API AI lub router przed hostowanymi modelami i automatyzuj pipeline'y agentów z n8n, Flowise, LangChain lub LlamaIndex za stabilnym punktem końcowym HTTP.

Rozliczenie godzinowe z limitem

Płać od EUR 0,0056/godz. i uruchamiaj serwery tylko wtedy, gdy działa zadanie. Koszt jest ograniczony do ceny miesięcznej, więc VPS działający 24/7 nigdy nie przekracza podanego planu.

Idealne dla

Te serwery pasują twórcom AI, którzy chcą własności danych, stabilnego API HTTP i braku limitów na żądanie. Uruchamiaj Ollama lub llama.cpp dla małych otwartych modeli, hostuj Qdrant, Weaviate lub Postgres z pgvector jako backend RAG i orkiestruj pipeline'y z n8n, Flowise, LangChain lub LlamaIndex. Wiele zespołów wykorzystuje VPS jako bramę API AI lub router przed hostowanymi modelami od OpenAI czy Anthropic. Bądź realistą co do prędkości: na CPU spodziewaj się od kilku do kilkunastu tokenów na sekundę, co jest idealne do pracy wsadowej i asynchronicznej. Trenowanie i dostrajanie na GPU są poza zakresem w naszej flocie działającej wyłącznie na CPU.

  • Self-hosting Ollama lub llama.cpp dla małych skwantyzowanych modeli 3B-8B
  • Backendy RAG z Qdrant, Weaviate lub pgvector
  • Zadania wsadowe osadzeń i klasyfikacji dokumentów
  • Bramy API AI i routery do hostowanych modeli
  • Pipeline'y automatyzacji AI w n8n i Flowise
  • Backendy chatbotów i agentów za prywatnym API

Najczęściej zadawane pytania

Czy można uruchomić AI lub LLM na VPS bez GPU?
Tak, dla odpowiednich obciążeń. Małe i skwantyzowane otwarte modele działają na CPU: modele 2B-3B w 4-8 GB RAM i modele 7B-8B Q4 GGUF w około 16 GB. Osadzenia, klasyfikacja, streszczanie i orkiestracja RAG działają dobrze. Trenowanie na GPU i inferencja dużych modeli w czasie rzeczywistym nie działają na CPU i są tutaj poza zakresem.
Ile RAM potrzebuję, aby hostować LLM na VPS?
RAM jest wiążącym ograniczeniem dla inferencji na CPU. Zaplanuj mniej więcej rozmiar skwantyzowanego modelu plus zapas dla systemu i procesu obsługującego: około 4-8 GB dla modeli 2B-3B i około 16 GB dla modelu 7B-8B w Q4 GGUF. Bazy wektorowe i indeksy osadzeń potrzebują dodatkowego RAM ponad model.
Czy mogę uruchomić Ollama na VPS od X-ZoneServers?
Tak. Mając pełny dostęp root na VPS z Linuksem, możesz zainstalować Ollama lub llama.cpp i obsługiwać modele GGUF przez lokalne API kompatybilne z OpenAI na porcie 11434. Trzymaj się małych skwantyzowanych modeli dobranych do Twojego RAM. Spodziewaj się od kilku do kilkunastu tokenów na sekundę, co pasuje do zadań wsadowych i asynchronicznych.
Jak szybka jest inferencja LLM na CPU w porównaniu z GPU?
Wolniejsza i to jest uczciwy kompromis. Na CPU zwykle widzisz od kilku do około kilkunastu tokenów na sekundę, znacznie poniżej przepustowości GPU. To w porządku do streszczania, ekstrakcji, klasyfikacji, osadzeń i nocnych zadań wsadowych, ale nie do interaktywnego czatu o wysokiej przepustowości. Do czatu w czasie rzeczywistym umieść hostowany model za bramą AI działającą na Twoim VPS.
Czy mogę hostować backend RAG lub bazę wektorową na tych VPS?
Tak. NVMe SSD i dedykowany RAM sprawiają, że te serwery dobrze pasują do samodzielnie hostowanych baz wektorowych, takich jak Qdrant, Weaviate lub Postgres z pgvector, obok Redis i warstwy orkiestracji, takiej jak n8n, LangChain lub LlamaIndex. Instancja 4 vCPU / 16 GB / NVMe pokrywa większość wczesnych wdrożeń RAG.
Czy oferujecie serwery GPU do trenowania lub dostrajania?
Nie. X-ZoneServers nie ma sprzętu GPU, więc trenowanie na GPU, dostrajanie na dużą skalę i inferencja dużych modeli w czasie rzeczywistym są poza zakresem. Nasze VPS najlepiej sprawdzają się przy AI odpowiednim dla CPU: małe modele, osadzenia, RAG, automatyzacja i działanie jako brama do hostowanych modeli. Do cięższych obliczeń zobacz nasze serwery dedykowane.

Uruchom VPS dla AI w mniej niż 60 sekund

Postaw VPS KVM zoptymalizowany pod CPU dla Ollama, RAG i automatyzacji AI. Rozliczenie godzinowe z limitem do ceny miesięcznej, z NVMe i ochroną DDoS w cenie.