ローカルLLMのデプロイ例 { モデル : Qwen3-Coder,　推論環境 : vLLM,　CLI : qwen-code,　ハード : H100}

## Step1 モデルのダウンロード
🏆Qwen3-Coder-480B-A35B-Instruct  [GitHub](https://github.com/QwenLM/Qwen3-Coder)

※ FP8版なら最低限必要なVRAM（≒GPU数）が半減できて嬉しい（約960GB→480GB）

> [!NOTE]
> 「"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization」
> https://arxiv.org/abs/2411.02355 等を見る限り、推論において BF16→FP8 は、ほぼ無劣化
> ゆえにベンチマークで比較するまでもないのだろう

- [x] Qwen3-Coder-480B-A35B-Instruct-FP8を採用
- [x] 前もって [HuggingFace](https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8)からスパコンにダウンロードした方が良い。

<details>
<summary>スパコンへの直接ダウンロード方法</summary>

### 事前準備

Pythonモジュール
```python
pip install -U "huggingface_hub[cli]"
```
```python
pip install -U hf_transfer
```
Hugging Face CLIのログイン
```bash
hf auth login
```
hfトークン設定後の確認
```bash
hf auth whoami
```
以下のbashファイルを編集して`hf_downloader.sh`として保存
```bash
DEST=/work/YOUR_PROJECT_ID/YOUR_USER_ID/models/Qwen3-Coder-480B-A35B-Instruct-FP8
mkdir -p "$DEST"

# ダウンロード
hf download Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 --local-dir "$DEST"
```
実行許可
```bash
chmod +x hf_downloader.sh
```
```bash
hf_downloader.sh
```

</details>

> [!CAUTION]
> vLLMデフォルトのHFキャッシュは`~/.cache/huggingface/`だが約480GBのLLMの重みを`/home`には置けないので、 `/work`以下のあるフォルダに
> HuggingFaceから全ファイルをダウンロードすべき
>  例：`/work/PROJECT_ID/USER_ID/Qwen3-Coder-480B-A35B-Instruct-FP8/`


さらに`vllm serve`の引数`--download-dir`をセット（後述）
[vLLM args一覧](https://docs.vllm.ai/en/latest/configuration/engine_args.html#-download-dir)

---

## Step2 vLLMでのサービング

1ノードであればPython経由でuv pip install でvllmのPre-build wheelsを使えて楽 [詳細](https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#nvidia-cuda)
```
uv venv --python 3.12 --seed
source .venv/bin/activate
```
GH200でなければ下記は`--torch-backend=auto`で構わない
```
uv pip install vllm --torch-backend=cu126
```
 (or UV_TORCH_BACKEND=cu126)

https://github.com/vllm-project/vllm/releases/tag/v0.10.0 にあるCUDA12.6のPre-build wheelを使えそう

Install vLLM with a specific CUDA version (e.g., 11.8 or 12.6).
```bash
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r .tag_name | sed 's/^v//')
export CUDA_VERSION=126
uv pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu${CUDA_VERSION}-cp38-abi3-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
```


> [!Warning]
> 不老のマルチノード環境ではDockerイメージをsingularityに変換して使用したが
> GH200（aarch64/Arm64）は、別のDockerコンテナが必要
> latestのビルドが4ヶ月前なのでPre-build版は非推奨（Qwen3-Coder等の最新モデルには未対応）
> https://docs.vllm.ai/en/stable/deployment/docker.html#building-for-arm64aarch64

- [ ] 自分で最新版をBuildする

[vLLMのマルチノード分散サービング](https://github.com/vllm-project/vllm/blob/main/examples/online_serving/multi-node-serving.sh)
<details>
<summary>マルチノード分散の場合Rayクラスタの構築方法</summary>

上記のリンクにある`./multi-node-serving.sh` を Head nodeで実行後 各 Worker node でHead nodeの IPアドレスを渡して実行.

Head node
```bash
./multi-node-serving.sh leader --ray_port=6379 --ray_cluster_size=8 [<extra ray args>]  && \
python3 -m vllm.entrypoints.openai.api_server --port 8080 --model Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 --pipeline-parallel-size 8 --max-model-len 8000 --download-dir /work/PROJECT_ID/USER_ID/Qwen3-Coder-480B-A35B-Instruct-FP8
```
InfiniBand等高速なノード間通信があればTensor並列も有効
```
--tensor-parallel-size 8 
```
Worker nodes
```bash
./multi-node-serving.sh worker --ray_address=<HEAD_NODE_IP> --ray_port=6379 [<extra ray args>]
```

- [ ] Miyabi-G向けのバッチスクリプト（自動でHead node起動時にHEAD_NODE_IPを取得しWorker起動の引数に渡す）

</details>


最低限必要な引数は以下（コンテキスト長 8000は控え目。256Kに近づけたい）
```
vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --max-model-len 8000 \
  --download-dir /work/PROJECT_ID/USER_ID/Qwen3-Coder-480B-A35B-Instruct-FP8 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder
```
https://x.com/vllm_project/status/1947780382847603053
[他の参考](https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3-Coder-480B-A35B.html)

> [!NOTE]
> Miyabi-GのGH200は各ノード1GPUなのでTensor並列よりPipeline並列の方が良いかもしれない

---

## Step3 Qwen Code CLIへの接続
- [ ] [QwenCode](https://github.com/QwenLM/qwen-code) CLIへの[接続](https://zenn.dev/kun432/scraps/4281edbb8a5e98)

vLLM自体がOpenAI互換なので、以下のように環境変数をセットした後
```bash
export OPENAI_API_KEY="dummy"
export OPENAI_BASE_URL="http://<ローカルサーバのIP>:8080/v1"
export OPENAI_MODEL="Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8"
```
以下のコマンドでQwen Code CLIを起動すれば良い
```
qwen
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ローカルLLMのデプロイ例 { モデル : Qwen3-Coder,　推論環境 : vLLM,　CLI : qwen-code,　ハード : H100} #39

Step1 モデルのダウンロード

事前準備

Step2 vLLMでのサービング

Step3 Qwen Code CLIへの接続

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

ローカルLLMのデプロイ例 { モデル : Qwen3-Coder, 推論環境 : vLLM, CLI : qwen-code, ハード : H100} #39

Description

Step1 モデルのダウンロード

事前準備

Step2 vLLMでのサービング

Step3 Qwen Code CLIへの接続

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

ローカルLLMのデプロイ例 { モデル : Qwen3-Coder,　推論環境 : vLLM,　CLI : qwen-code,　ハード : H100} #39