AI / LLM VPS

AI ve LLM İş Yükleri için VPS (CPU Optimize)

AI için VPS, token başına ödeme yapmak yerine AI iş yüklerini kendiniz barındırdığınız, adanmış CPU, RAM ve NVMe depolama içeren bir KVM sunucusudur. X-ZoneServers VPS'leri yalnızca CPU'ludur; bu nedenle küçük nicemlenmiş modeller, gömmeler, RAG orkestrasyonu, vektör veritabanları ve barındırılan modellere giden API ağ geçitleri için uygundur. GPU donanımımız yoktur, bu yüzden GPU eğitimi ve büyük model gerçek zamanlı çıkarımı kapsam dışıdır.

AI VPS'lerimiz, örnek başına garantili RAM, CPU çekirdeği ve NVMe SSD içeren KVM sanallaştırması üzerinde çalışır; bu önemlidir çünkü CPU LLM çıkarımı GPU'ya değil, bellek bant genişliğine ve RAM payına bağlıdır. Q4 GGUF'a nicemlenmiş bir 7B-8B modeli, rahatça yüklenip sunulması için genellikle yaklaşık 16 GB RAM gerektirir; 2B-3B modeller ve gömme modelleri 4-8 GB'a sığar. Her plan 1 Gbps sayaçsız bant genişliği, 1 Tbps'ye kadar DDoS azaltma, tam root erişimi, %99.9 çalışma süresi SLA'sı ve Avrupa ile Kuzey Amerika'daki 12 veri merkezinde 60 saniyenin altında dağıtım içerir.

< 60s
Dağıtım süresi
1 Gbps
Sayaçsız ağ
12
Küresel konum
Up to 1 Tbps
DDoS koruması

Neden işe yarıyor

İş yüküne göre eşleştirilmiş altyapı — genel amaçlı bir sunucu değil, size ayrılmış kaynaklar.

Yalnızca CPU, dürüstçe kapsamlandırılmış

GPU donanımı yoktur, bu yüzden sizi CPU'da iyi çalışan şeylere yönlendiririz: küçük nicemlenmiş modeller, gömmeler, sınıflandırma ve RAG; GPU eğitimi veya büyük model gerçek zamanlı çıkarımı değil.

Adanmış RAM ve NVMe

KVM her VPS'e garantili RAM, CPU ve NVMe SSD verir. RAM payı, CPU LLM çıkarımının asıl kısıtıdır ve belleğinizi asla aşırı taahhüt etmeyiz.

Ollama ve llama.cpp'yi kendiniz barındırın

Ubuntu, Debian, AlmaLinux veya Rocky Linux üzerinde tam root erişimi, OpenAI uyumlu yerel bir API ile 3B-8B GGUF modelleri sunan Ollama ya da llama.cpp çalıştırmanıza olanak tanır.

RAG ve vektör DB'ye hazır

Qdrant, Weaviate veya pgvector'lü Postgres'i özel bir RAG arka ucu olarak, ayrıca Redis ve orkestrasyon katmanınızı aynı NVMe destekli örnekte barındırın.

AI ağ geçidi ve otomasyon

Barındırılan modellerin önünde bir AI API ağ geçidi ya da yönlendirici çalıştırın ve istikrarlı bir HTTP uç noktasının arkasında ajan hatlarını n8n, Flowise, LangChain veya LlamaIndex ile otomatikleştirin.

Saatlik, sınırlı faturalandırma

EUR 0.0056/saatten ödeyin ve sunucuları yalnızca bir iş çalışırken açın. Maliyet aylık fiyatla sınırlıdır; böylece 7/24 çalışan bir VPS listelenen planı asla aşmaz.

Şunlar için ideal

Bu sunucular; veri sahipliği, istikrarlı bir HTTP API'si ve istek başına hız sınırı olmaması isteyen AI geliştiricileri için uygundur. Küçük açık modeller için Ollama veya llama.cpp çalıştırın, RAG arka ucu olarak Qdrant, Weaviate ya da pgvector'lü Postgres barındırın ve hatları n8n, Flowise, LangChain veya LlamaIndex ile orkestre edin. Birçok ekip, OpenAI veya Anthropic'in barındırılan modellerinin önünde bir VPS'i AI API ağ geçidi ya da yönlendiricisi olarak kullanır. Hız konusunda gerçekçi olun: CPU üzerinde saniyede tek haneli ila düşük çift haneli token bekleyin; toplu ve eşzamansız işler için idealdir. GPU eğitimi ve ince ayar, yalnızca CPU'lu filomuzda kapsam dışıdır.

  • Küçük nicemlenmiş 3B-8B modeller için Ollama veya llama.cpp'yi kendi barındırmak
  • Qdrant, Weaviate veya pgvector ile RAG arka uçları
  • Gömme ve belge sınıflandırma toplu işleri
  • Barındırılan modellere AI API ağ geçitleri ve yönlendiricileri
  • n8n ve Flowise AI otomasyon hatları
  • Özel bir API arkasında sohbet botu ve ajan arka uçları

Sıkça sorulan sorular

GPU olmadan bir VPS'te AI veya LLM çalıştırabilir misiniz?
Doğru iş yükleri için evet. Küçük ve nicemlenmiş açık modeller CPU'da çalışır: 2B-3B modeller 4-8 GB RAM'de, 7B-8B Q4 GGUF modeller ise yaklaşık 16 GB'de. Gömmeler, sınıflandırma, özetleme ve RAG orkestrasyonu hepsi iyi çalışır. GPU eğitimi ve büyük model gerçek zamanlı çıkarımı CPU'da çalışmaz ve burada kapsam dışıdır.
Bir VPS'te LLM barındırmak için ne kadar RAM'e ihtiyacım var?
RAM, CPU çıkarımının belirleyici kısıtıdır. Kabaca nicemlenmiş model boyutu artı işletim sistemi ve sunum süreci için pay öngörün: 2B-3B modeller için yaklaşık 4-8 GB ve Q4 GGUF'taki bir 7B-8B model için yaklaşık 16 GB. Vektör veritabanları ve gömme dizinleri, modelin üzerine ek RAM gerektirir.
Bir X-ZoneServers VPS'inde Ollama çalıştırabilir miyim?
Evet. Bir Linux VPS'inde tam root erişimiyle Ollama veya llama.cpp kurabilir ve GGUF modellerini 11434 portunda yerel, OpenAI uyumlu bir API üzerinden sunabilirsiniz. RAM'inize göre boyutlandırılmış küçük nicemlenmiş modellere bağlı kalın. Saniyede tek haneli ila düşük çift haneli token bekleyin; bu, toplu ve eşzamansız görevlere uygundur.
CPU LLM çıkarımı bir GPU'ya kıyasla ne kadar hızlı?
Daha yavaş ve dürüst takas budur. CPU'da genellikle saniyede birkaç ila yaklaşık bir düzine token görürsünüz; bu, GPU verimliliğinin oldukça altındadır. Özetleme, çıkarım, sınıflandırma, gömmeler ve gece çalışan toplu işler için sorun değildir, ancak yüksek verimli etkileşimli sohbet için değildir. Gerçek zamanlı sohbet için VPS'inizde çalışan bir AI ağ geçidinin arkasına barındırılan bir model koyun.
Bu VPS'lerde bir RAG arka ucu veya vektör veritabanı barındırabilir miyim?
Evet. NVMe SSD ve adanmış RAM, bu sunucuları Qdrant, Weaviate veya pgvector'lü Postgres gibi kendi barındırdığınız vektör veritabanları için, Redis ve n8n, LangChain ya da LlamaIndex gibi bir orkestrasyon katmanıyla birlikte iyi bir seçim haline getirir. Bir 4 vCPU / 16 GB / NVMe örneği çoğu erken aşama RAG dağıtımını karşılar.
Eğitim veya ince ayar için GPU sunucuları sunuyor musunuz?
Hayır. X-ZoneServers'ın GPU donanımı yoktur, bu yüzden GPU eğitimi, geniş ölçekte ince ayar ve büyük model gerçek zamanlı çıkarımı kapsam dışıdır. VPS'lerimiz CPU'ya uygun AI için en iyisidir: küçük modeller, gömmeler, RAG, otomasyon ve barındırılan modellere ağ geçidi olarak hizmet etmek. Daha ağır işlem gücü için adanmış sunucularımıza bakın.

60 saniyenin altında bir AI VPS oluşturun

Ollama, RAG ve AI otomasyonu için CPU optimize bir KVM VPS açın. NVMe ve DDoS koruması dahil, aylık fiyatla sınırlı saatlik faturalandırma.