面向 AI 与 LLM 工作负载的 VPS(CPU 优化)
面向 AI 的 VPS 是一台配备专属 CPU、内存和 NVMe 存储的 KVM 服务器,您可在其上自托管 AI 工作负载,而无需按 token 付费。X-ZoneServers 的 VPS 为 CPU 专用,因此适合小型量化模型、嵌入、RAG 编排、向量数据库以及通往托管模型的 API 网关。我们没有 GPU 硬件,因此 GPU 训练和大模型实时推理不在支持范围内。
我们的 AI VPS 运行在 KVM 虚拟化上,每个实例都拥有保障的内存、CPU 核心和 NVMe SSD——这一点很关键,因为 CPU 上的 LLM 推理受限于内存带宽和内存余量,而非 GPU。一个量化为 Q4 GGUF 的 7B-8B 模型通常需要约 16 GB 内存才能从容地加载与服务;2B-3B 模型和嵌入模型则可装入 4-8 GB。每个套餐均包含 1 Gbps 不限量带宽、高达 1 Tbps 的 DDoS 防护、完整 root 权限、99.9% 在线时长 SLA,并可在欧洲和北美的 12 个数据中心于 60 秒内完成部署。
为何有效
为工作负载量身匹配的基础设施——专属资源,而非通用机型。
CPU 专用,坦诚界定范围
没有 GPU 硬件,因此我们为您指明在 CPU 上运行良好的场景:小型量化模型、嵌入、分类和 RAG,而非 GPU 训练或大模型实时推理。
专属内存与 NVMe
KVM 为每台 VPS 提供保障的内存、CPU 和 NVMe SSD。内存余量是 CPU 上 LLM 推理的真正瓶颈,而我们绝不会超售您的内存。
自托管 Ollama 与 llama.cpp
在 Ubuntu、Debian、AlmaLinux 或 Rocky Linux 上拥有完整 root 权限,让您运行 Ollama 或 llama.cpp 来服务 3B-8B GGUF 模型,并提供 OpenAI 兼容的本地 API。
RAG 与向量数据库就绪
在同一台 NVMe 支撑的实例上,托管 Qdrant、Weaviate 或搭配 pgvector 的 Postgres 作为私有 RAG 后端,外加 Redis 和您的编排层。
AI 网关与自动化
在托管模型之前运行 AI API 网关或路由器,并用 n8n、Flowise、LangChain 或 LlamaIndex 在稳定的 HTTP 端点之后自动化智能体流水线。
按小时计费,封顶
每小时低至 EUR 0.0056,只在任务运行时开通服务器即可。费用以月度价格封顶,因此一台 7×24 运行的 VPS 绝不会超过所列套餐。
适合用于
这些服务器适合追求数据所有权、稳定 HTTP API 且不受按请求速率限制的 AI 构建者。运行 Ollama 或 llama.cpp 来服务小型开源模型,托管 Qdrant、Weaviate 或搭配 pgvector 的 Postgres 作为 RAG 后端,并用 n8n、Flowise、LangChain 或 LlamaIndex 编排流水线。许多团队还把 VPS 用作位于 OpenAI 或 Anthropic 托管模型之前的 AI API 网关或路由器。请对速度抱有现实预期:在 CPU 上每秒可达个位数到低两位数的 token,非常适合批处理和异步工作。在我们的 CPU 专用集群上,GPU 训练和微调不在支持范围内。
- 自托管 Ollama 或 llama.cpp 运行小型量化 3B-8B 模型
- 搭配 Qdrant、Weaviate 或 pgvector 的 RAG 后端
- 嵌入与文档分类的批处理任务
- 通往托管模型的 AI API 网关与路由器
- n8n 与 Flowise 的 AI 自动化流水线
- 位于私有 API 之后的聊天机器人与智能体后端