AI / LLM VPS

AI・LLMワークロード向けVPS(CPU最適化)

AI向けVPSとは、CPU・RAM・NVMeストレージを占有するKVMサーバーで、トークン課金を支払う代わりにAIワークロードをセルフホストできます。X-ZoneServersのVPSはCPU専用のため、小規模な量子化モデル、埋め込み、RAGオーケストレーション、ベクトルデータベース、ホスト型モデルへのAPIゲートウェイに適しています。GPUハードウェアはないため、GPU学習や大規模モデルのリアルタイム推論は対象外です。

当社のAI VPSはKVM仮想化で動作し、インスタンスごとにRAM、CPUコア、NVMe SSDを保証します。これはCPUによるLLM推論がGPUではなくメモリ帯域とRAMの余裕に律速されるため重要です。Q4 GGUFに量子化した7B-8Bモデルは、快適にロード・配信するために通常およそ16 GBのRAMを必要とし、2B-3Bモデルや埋め込みモデルは4-8 GBに収まります。すべてのプランに1 Gbpsの帯域無制限、最大1 TbpsのDDoS緩和、完全なroot権限、99.9%の稼働率SLA、そして欧州・北米12拠点での60秒未満のデプロイが含まれます。

< 60秒
デプロイ時間
1 Gbps
帯域無制限ネットワーク
12
世界各地の拠点
最大 1 Tbps
DDoS対策

選ばれる理由

ワークロードに最適化したインフラ。汎用サーバーではなく、占有リソースを提供します。

CPU専用、正直なスコープ

GPUハードウェアはないため、CPUでよく動くもの、すなわち小規模な量子化モデル、埋め込み、分類、RAGをご案内します。GPU学習や大規模モデルのリアルタイム推論は対象外です。

RAMとNVMeを占有

KVMが各VPSにRAM、CPU、NVMe SSDを保証します。RAMの余裕こそがCPU LLM推論の真の制約であり、メモリを過剰割り当てすることは決してありません。

Ollama・llama.cppをセルフホスト

Ubuntu、Debian、AlmaLinux、Rocky Linuxでの完全なroot権限により、OpenAI互換のローカルAPIで3B-8B GGUFモデルを配信するOllamaやllama.cppを動かせます。

RAG・ベクトルDB対応

Qdrant、Weaviate、pgvector付きPostgresをプライベートなRAGバックエンドとしてホストし、Redisやオーケストレーション層も同じNVMe搭載インスタンス上で動かせます。

AIゲートウェイと自動化

ホスト型モデルの前段でAI APIゲートウェイやルーターを動かし、n8n、Flowise、LangChain、LlamaIndexで安定したHTTPエンドポイントの背後にエージェントパイプラインを自動化できます。

月額上限付きの時間課金

EUR 0.0056/時から支払い、ジョブが走るときだけサーバーを立ち上げられます。費用は月額が上限のため、24時間365日稼働させてもVPSが記載のプランを超えることはありません。

こんな用途に最適

これらのサーバーは、データ所有権、安定したHTTP API、リクエストごとのレート制限なしを求めるAIビルダーに適しています。小規模オープンモデルにはOllamaやllama.cppを動かし、RAGバックエンドとしてQdrant、Weaviate、pgvector付きPostgresをホストし、n8n、Flowise、LangChain、LlamaIndexでパイプラインをオーケストレーションできます。多くのチームは、OpenAIやAnthropicのホスト型モデルの前段でVPSをAI APIゲートウェイやルーターとして利用します。速度については現実的にお考えください。CPUでは毎秒一桁から十数トークン程度が見込まれ、バッチや非同期の処理に最適です。GPU学習とファインチューニングは当社のCPU専用環境では対象外です。

  • 小規模な量子化3B-8BモデルのOllama・llama.cppをセルフホスト
  • Qdrant、Weaviate、pgvectorによるRAGバックエンド
  • 埋め込みと文書分類のバッチジョブ
  • ホスト型モデルへのAI APIゲートウェイ・ルーター
  • n8nとFlowiseのAI自動化パイプライン
  • プライベートAPIの背後のチャットボット・エージェントバックエンド

よくある質問

GPUなしのVPSでAIやLLMを動かせますか?
適切なワークロードであれば、はい。小規模・量子化されたオープンモデルはCPUで動作します。2B-3Bモデルは4-8 GB RAMで、7B-8B Q4 GGUFモデルはおよそ16 GBで動きます。埋め込み、分類、要約、RAGオーケストレーションはいずれもよく機能します。GPU学習や大規模モデルのリアルタイム推論はCPUでは動作せず、ここでは対象外です。
VPSでLLMをホストするにはどれくらいのRAMが必要ですか?
RAMはCPU推論を律速する制約です。量子化後のモデルサイズに、OSと配信プロセス用の余裕を加えた量を見込んでください。2B-3Bモデルでおよそ4-8 GB、Q4 GGUFの7B-8Bモデルでおよそ16 GBが目安です。ベクトルデータベースや埋め込みインデックスには、モデルとは別に追加のRAMが必要です。
X-ZoneServersのVPSでOllamaを動かせますか?
はい。Linux VPSでの完全なroot権限により、Ollamaやllama.cppを導入し、ポート11434のローカルOpenAI互換APIでGGUFモデルを配信できます。RAMに見合った小規模な量子化モデルにとどめてください。毎秒一桁から十数トークン程度が見込まれ、バッチや非同期のタスクに適しています。
CPUによるLLM推論はGPUと比べてどれくらい速いですか?
遅くなります。これが正直なトレードオフです。CPUでは通常、毎秒数トークンから十数トークン程度で、GPUのスループットを大きく下回ります。要約、抽出、分類、埋め込み、夜間バッチジョブには十分ですが、高スループットの対話型チャットには不向きです。リアルタイムチャットには、VPS上で動かすAIゲートウェイの背後にホスト型モデルを置いてください。
これらのVPSでRAGバックエンドやベクトルデータベースをホストできますか?
はい。NVMe SSDとRAM占有により、これらのサーバーはQdrant、Weaviate、pgvector付きPostgresといったセルフホストのベクトルデータベースに、Redisやn8n、LangChain、LlamaIndexのようなオーケストレーション層と併せて好適です。4 vCPU / 16 GB / NVMeのインスタンスで、初期段階の大半のRAG構成をカバーできます。
学習やファインチューニング向けのGPUサーバーはありますか?
いいえ。X-ZoneServersはGPUハードウェアを持たないため、GPU学習、大規模なファインチューニング、大規模モデルのリアルタイム推論は対象外です。当社のVPSは、小規模モデル、埋め込み、RAG、自動化、ホスト型モデルへのゲートウェイといったCPU向けのAIに最適です。より重い演算には当社の専用サーバーをご覧ください。

AI VPSを60秒未満でデプロイ

Ollama、RAG、AI自動化向けにCPU最適化のKVM VPSを立ち上げましょう。月額上限付きの時間課金で、NVMeとDDoS対策を標準装備します。