SGLang私有化部署单机和集群Qwen3-235B-A22B模型实践

发布时间：2025/05/08 15:45:32

来源： GongHang

[ 打印 ]

一、SGLang框架概述

SGlang是一个高性能推理引擎，专为混合专家（MoE）语言模型设计，如DeepSeek-R1。它支持多节点张量并行计算，能够在多台机器上协同工作，从而满足大规模模型的部署需求。此外，SGlang还支持FP8（W8A8）和KV缓存优化，并通过Torch Compile技术进一步提升推理效率。

二、SGLang部署Qwen3

（一）服务器硬件配置

服务器1：CPU：英特尔至强Max 9468*2、GPU：HGX H20(96GB)*8、内存：64GB*32、存储：3.84T Nvme*4

服务器2：CPU：英特尔至强Max 9468*2、GPU：HGX H20(96GB)*8、内存：64GB*32、存储：3.84T Nvme*4

网络：25Gb以太组网

（二）Docker安装

国外镜像源：sudo docker pull lmsysorg/sglang:latest

国内镜像源：sudo docker pull docker.1ms.run/lmsysorg/sglang:latest

（三）启动SGLang容器

1.单台服务器部署Qwen3-235B-A22B。

创建sglang容器

sudo docker run -itd --entrypoint /bin/bash --ipc host --gpus all --name sglang -p 44444:44444 -v /share2/server3/models:/workspace/models --rm docker.1ms.run/lmsysorg/sglang:latest

进入sglang容器终端

python3 -m sglang.launch_server --model-path /workspace/models/ Qwen3-235B-A22B --tp 8 --trust-remote-code --host 0.0.0.0 --port 44444 --served-model-name Qwen3-235B-A22B --api-key xxxxxxxxxx…xxxxxx

2.两台服务器部署Qwen3-235B-A22B。

分别创建sglang容器（此处“/share2/server3/models”为共享文件夹）

sudo docker run -itd --entrypoint /bin/bash --ipc host --gpus all --name sglang -p 44444:44444 -v /share2/server3/models:/workspace/models --rm docker.1ms.run/lmsysorg/sglang:latest

分别进入sglang容器终端

主节点head：

python3 -m sglang.launch_server --model-path /workspace/models/ Qwen3-235B-A22B --tp 16 --dist-init-addr 10.0.10.11:5000 --nnodes 2 --node-rank 0 --trust-remote-code --host 0.0.0.0 --port 44444 --served-model-name Qwen3-235B-A22B --api-key xxxxxxxxxx…xxxxxx

子节点worker：

python3 -m sglang.launch_server --model-path /workspace/models/ Qwen3-235B-A22B --tp 16 --dist-init-addr 10.0.10.11:5000 --nnodes 2 --node-rank 1 --trust-remote-code

（四）验证SGLang服务

1.在Open-WebUI（WebUI安装过程，请参考官方教程）管理员界面中，设置OpenAI API外部连接。

2.创建聊天窗口，选择Qwen3-235B-A22B模型。

附件下载：SGLang部署Qwen3.pdf