AI / LLM VPS

面向 AI 与 LLM 工作负载的 VPS(CPU 优化)

面向 AI 的 VPS 是一台配备专属 CPU、内存和 NVMe 存储的 KVM 服务器,您可在其上自托管 AI 工作负载,而无需按 token 付费。X-ZoneServers 的 VPS 为 CPU 专用,因此适合小型量化模型、嵌入、RAG 编排、向量数据库以及通往托管模型的 API 网关。我们没有 GPU 硬件,因此 GPU 训练和大模型实时推理不在支持范围内。

我们的 AI VPS 运行在 KVM 虚拟化上,每个实例都拥有保障的内存、CPU 核心和 NVMe SSD——这一点很关键,因为 CPU 上的 LLM 推理受限于内存带宽和内存余量,而非 GPU。一个量化为 Q4 GGUF 的 7B-8B 模型通常需要约 16 GB 内存才能从容地加载与服务;2B-3B 模型和嵌入模型则可装入 4-8 GB。每个套餐均包含 1 Gbps 不限量带宽、高达 1 Tbps 的 DDoS 防护、完整 root 权限、99.9% 在线时长 SLA,并可在欧洲和北美的 12 个数据中心于 60 秒内完成部署。

< 60s
部署时间
1 Gbps
不限量网络
12
全球节点
Up to 1 Tbps
DDoS 防护

为何有效

为工作负载量身匹配的基础设施——专属资源,而非通用机型。

CPU 专用,坦诚界定范围

没有 GPU 硬件,因此我们为您指明在 CPU 上运行良好的场景:小型量化模型、嵌入、分类和 RAG,而非 GPU 训练或大模型实时推理。

专属内存与 NVMe

KVM 为每台 VPS 提供保障的内存、CPU 和 NVMe SSD。内存余量是 CPU 上 LLM 推理的真正瓶颈,而我们绝不会超售您的内存。

自托管 Ollama 与 llama.cpp

在 Ubuntu、Debian、AlmaLinux 或 Rocky Linux 上拥有完整 root 权限,让您运行 Ollama 或 llama.cpp 来服务 3B-8B GGUF 模型,并提供 OpenAI 兼容的本地 API。

RAG 与向量数据库就绪

在同一台 NVMe 支撑的实例上,托管 Qdrant、Weaviate 或搭配 pgvector 的 Postgres 作为私有 RAG 后端,外加 Redis 和您的编排层。

AI 网关与自动化

在托管模型之前运行 AI API 网关或路由器,并用 n8n、Flowise、LangChain 或 LlamaIndex 在稳定的 HTTP 端点之后自动化智能体流水线。

按小时计费,封顶

每小时低至 EUR 0.0056,只在任务运行时开通服务器即可。费用以月度价格封顶,因此一台 7×24 运行的 VPS 绝不会超过所列套餐。

适合用于

这些服务器适合追求数据所有权、稳定 HTTP API 且不受按请求速率限制的 AI 构建者。运行 Ollama 或 llama.cpp 来服务小型开源模型,托管 Qdrant、Weaviate 或搭配 pgvector 的 Postgres 作为 RAG 后端,并用 n8n、Flowise、LangChain 或 LlamaIndex 编排流水线。许多团队还把 VPS 用作位于 OpenAI 或 Anthropic 托管模型之前的 AI API 网关或路由器。请对速度抱有现实预期:在 CPU 上每秒可达个位数到低两位数的 token,非常适合批处理和异步工作。在我们的 CPU 专用集群上,GPU 训练和微调不在支持范围内。

  • 自托管 Ollama 或 llama.cpp 运行小型量化 3B-8B 模型
  • 搭配 Qdrant、Weaviate 或 pgvector 的 RAG 后端
  • 嵌入与文档分类的批处理任务
  • 通往托管模型的 AI API 网关与路由器
  • n8n 与 Flowise 的 AI 自动化流水线
  • 位于私有 API 之后的聊天机器人与智能体后端

常见问题

没有 GPU 也能在 VPS 上运行 AI 或 LLM 吗?
可以,针对合适的工作负载。小型与量化的开源模型可在 CPU 上运行:2B-3B 模型需 4-8 GB 内存,7B-8B Q4 GGUF 模型需约 16 GB。嵌入、分类、摘要和 RAG 编排都能良好运行。GPU 训练和大模型实时推理无法在 CPU 上运行,不在此处的支持范围内。
在 VPS 上托管 LLM 需要多少内存?
内存是 CPU 推理的约束性瓶颈。请按量化模型大小再加上操作系统和服务进程的余量来规划:2B-3B 模型约需 4-8 GB,Q4 GGUF 的 7B-8B 模型约需 16 GB。向量数据库和嵌入索引则需要在模型之外额外的内存。
我能在 X-ZoneServers VPS 上运行 Ollama 吗?
可以。在 Linux VPS 上拥有完整 root 权限,您即可安装 Ollama 或 llama.cpp,并通过 11434 端口上 OpenAI 兼容的本地 API 来服务 GGUF 模型。请使用与您内存相匹配的小型量化模型。预期每秒个位数到低两位数的 token,适合批处理和异步任务。
与 GPU 相比,CPU 上的 LLM 推理有多快?
更慢,这正是需要坦诚说明的权衡。在 CPU 上通常每秒可见几个到约十几个 token,远低于 GPU 吞吐量。这对于摘要、抽取、分类、嵌入和过夜批处理任务来说没问题,但不适合高吞吐的交互式聊天。对于实时聊天,请将托管模型置于运行在您 VPS 上的 AI 网关之后。
我能在这些 VPS 上托管 RAG 后端或向量数据库吗?
可以。NVMe SSD 和专属内存让这些服务器非常适合自托管向量数据库,如 Qdrant、Weaviate 或搭配 pgvector 的 Postgres,外加 Redis 以及 n8n、LangChain 或 LlamaIndex 等编排层。一台 4 vCPU / 16 GB / NVMe 实例可覆盖大多数早期阶段的 RAG 部署。
你们提供用于训练或微调的 GPU 服务器吗?
不提供。X-ZoneServers 没有 GPU 硬件,因此 GPU 训练、规模化微调和大模型实时推理不在支持范围内。我们的 VPS 最适合适合 CPU 的 AI:小型模型、嵌入、RAG、自动化以及作为通往托管模型的网关。若需更强算力,请查看我们的独立服务器。

60 秒内部署一台 AI VPS

开通一台 CPU 优化的 KVM VPS,用于 Ollama、RAG 和 AI 自动化。按小时计费并以月度价格封顶,包含 NVMe 与 DDoS 防护。