DeepSeek介绍与部署

发布时间:2025/04/29 15:20:18
来源: GongHang
[ 打印 ]

一、什么是DeepSeek

(一)DeepSeek简介

        DeepSeek(中文名“深度求索”)是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用,由量化资管巨头“幻方量化”于2023年7月创立。

       DeepSeek也指由DeepSeek公司研发的、类似于ChatGPT、文心一言的智能助手。外界也习惯将该公司开发的一系列大模型产品笼统称为“DeepSeek”。  

       目前DeepSeek 主要有两条产品线:

       V系列:通用对话与内容生成(如 DeepSeek-V3),面向文本生成、客服对话等场景。

       R系列:深度推理与逻辑思维(如 DeepSeek-R1),适用于复杂问题求解与科学计算。

(二)DeepSeek发展历程

       截至2025年2月,DeepSeek 目前已发布13个大模型,并全部开源,全球开发者均可利用这些大模型技术开发自己的模型、应用和产品。



DeepSeek截至2025年2月发布的大模型

模型名称

模型类型

发布时间

DeepSeek Coder

代码生成模型

2023年11月02日

DeepSeek LLM

通用大语言模型

2023年11月29日

DreamCraft3D

文生3D模型

2023年12月18日

DeepSeek MoE

混合专家模型

2024年01月11日

DeepSeek Math

数学推理模型

2024年02月05日

DeepSeek-VL

多模态模型

2024年03月11日

DeepSeek V2

混合专家模型

2024年05月07日

DeepSeek Coder V2

代码生成模型

2024年06月17日

DeepSeek-V2.5

融合通用与代码能力模型

2024年09月06日

DeepSeek-VL2

多模态混合专家模型

2024年12月13日

DeepSeek V3

混合专家模型

2024年12月26日

DeepSeek-R1

推理模型

2025年01月20日

DeepSeek Janus-Pro

多模态模型

2025年01月28日


2024年12月,DeepSeek最新V系列模型--DeepSeek-V3首个版本上线,并同步开源。DeepSeek-V3是一个MoE(Mixture-of-Experts)模型,共有671B参数,每个token激活的参数量为37B。为实现高效训练与推理,DeepSeek-V3 延续了 DeepSeek-V2 的 MLA(Multi-head Latent Attention)及 DeepSeek MoE 架构。此外,DeepSeek-V3 首创了无需辅助损失的负载均衡策略,还使用了多 Token 预测训练目标以增强性能

DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。

2025年1月,DeepSeek发布了最新R系列模型--DeepSeek-R1(性能对标OpenAI-O1正式版),在数学、编程和逻辑推理方面表现优异。在AIME(美国数学竞赛)等硬核基准测试中,DeepSeek-R1超越了OpenAI-O1模型,受到了全世界的广泛关注。

(三)DeepSeek影响

       DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。

       DeepSeek发表的原始报告中指出,DeepSeek-V3仅使用了2048块英伟达H800 GPU,耗费了557.6万美元就完成了训练,相比同等规模的模型(如GPT-4o、Llama3.1等),训练成本大幅降低。

       DeepSeek的成功展示了”有限算力+算法创新“的发展模式,为中国AI发展提供了宝贵的经验。它证明了在有限算力条件下,通过一系列算法创新同样能够突破算力瓶颈的限制,使开发的大模型获得媲美国际顶尖水平大模型(GPT-4、Claude等)的性能。

       DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。

(四)DeepSeek体验

       模型在线体验:https://www.deepseek.com

       模型下载地址:https://modelscope.cn/models?name=deepseek

二、本地化部署

 (一)DeepSeek-R1部署硬件配置要求

       DeepSeek-R1 671B满血版具有6710亿参数,这对显存的需求非常高,通常需要多 GPU分布式推理或高性能计算集群来支持。


DeepSeek-R1满血版显存要求

模型参数

DeepSeek-R1 671B

模型显存

671GB

335GB

136GB~226GB

数据精度

FP8

4-bit量化

1.58-2.51-bit量化

运行显存最小值(1.3*模型显存)

872.3GB

435.5GB

176GB~239GB


       DeepSeek-R1蒸馏后的版本,如DeepSeek-R1 1.5B/7B/8B版本,可使用Ollama工具在 CPU上部署运行,但一般仅限于单用户,也可以在消费级 GPU(如Nvidia RTX 3090、4090)上部署运行,可支持少量并发用户。对于DeepSeek-R1 70B模型,则至少需要2张24G显存的显卡。如果计算机显存资源不足但内存足够,也可以尝试运行,不过Ollama会使用CPU+GPU混合推理的模式,运行速度相比单纯的GPU模式会下降很多。


DeepSeek-R1蒸馏版本硬件要求

设备级别

模型版本

最低配置要求

入门级设备

DeepSeek-R1 1.5B

4GB内存 + 核显

进阶推荐

DeepSeek-R1 7B

8GB内存 + 4GB显存

高性能版本

DeepSeek-R1 32B

32GB内存 + 12GB显存

超性能版本

DeepSeek-R1 70B

64GB内存 + 40GB显存

(二)Ollama部署DeepSeek-R1蒸馏版

   1. 本地计算机硬件配置

       CPU:Intel i5-14400F、GPU:Nvidia RTX4060 8G显存、内存:16GB * 2、存储:1TB SSD。

   2. 下载Linux版Ollama

       打开Linux终端命令窗口,运行:curl -fsSL https://ollama.com/install.sh | sh。如遇无法下载安装,可通过GitHub下载最新版本压缩包(https://github.com/ollama/ollama/releases)。

   3. 安装Ollama

       通过GitHub下载压缩包完成后,执行命令:sudo tar -zxf ollama-linux-amd64.tgz -C /usr/local,其中/usr/local为解压安装目录(若安装至其它目录下,请注意环境变量设置)。

       创建服务配置文件:/etc/systemd/system/ollama.service,直接在终端窗口中执行命令:sudo vi /etc/systemd/system/ollama.service,输入以下内容:

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
ExecStart=/usr/local/bin/ollama serve
User=root
Group=root
Restart=always
RestartSec=3
Environment="OLLAMA_MODELS=/home/ghang/ollama/models"

[Install]
WantedBy=default.target

     保存ollama.service成功后,执行以下命令,使Ollama服务生效。

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

   4. 运行DeepSeek-R1 7B模型

       Ollama下载并运行DeepSeek-R1 7B模型。Ollama默认下载Q4_K_M量化版本,模型文件大约4.7GB。

(三)vLLM部署DeepSeek-R1满血版

   1. 部署服务器硬件配置

        服务器1:CPU:英特尔至强Max 9468 * 2、GPU:HGX H20(96GB) * 8、内存:64GB * 32、存储:3.84T Nvme * 4

       服务器2:CPU:英特尔至强Max 9468 * 2、GPU:HGX H20(96GB) * 8、内存:64GB * 32、存储:3.84T Nvme * 4

       网络:25Gb以太组网

   2. vLLM安装

       安装vLLM-docker镜像,在Linux终端中执行命令:sudo docker pull vllm/vllm-openai:latest,拉取镜像。如遇下载失败,可转至国内镜像源,例如:

       sudo docker pull docker.1ms.run/vllm/vllm-openai:latest

   3. 创建Ray集群

   (1)创建vllm-openai容器,然后进入容器bash窗口,通过Ray指令创建集群。

sudo docker run -itd --gpus all --network host --ipc host --name vllm-openai --rm -v /home/GongHang/models:/workspace/models --entrypoint /bin/bash docker.1ms.run/vllm/vllm-openai:latest

       在服务器1中创建head节点:ray start --head --node-ip-address='本机IP'

       在服务器2中创建worker节点:ray start --address='head节点IP:6379' --node-ip-address='本机IP'

(2)创建run_cluster.sh脚本文件,使用脚本文件初始化Ray节点(建议使用)。

       在服务器1中创建head节点:sudo bash run_cluster.sh 本机IP --head

       在服务器2中创建worker节点:sudo bash run_cluster.sh 主节点IP --worker

#!/bin/bash

if [ $# -lt 2 ]; then
    echo "Usage: $0 head_node_address --head|--worker [additional_args...]"
    exit 1
fi

HEAD_NODE_ADDRESS="$1"
NODE_TYPE="$2"
shift 2

ADDITIONAL_ARGS=("$@")

if [ "${NODE_TYPE}" != "--head" ] && [ "${NODE_TYPE}" != "--worker" ]; then
    echo "Error: Node type must be --head or --worker"
    exit 1
fi

cleanup() {
    if [ -e /var/lib/docker/containers/vllm ]; then
        docker stop vllm
        docker rm vllm
    fi
}
trap cleanup EXIT

RAY_START_CMD="ray start --block"
if [ "${NODE_TYPE}" == "--head" ]; then
    RAY_START_CMD+=" --head --port=6379"
else
    RAY_START_CMD+=" --address=${HEAD_NODE_ADDRESS}:6379"
fi
# 执行docker命令
docker run -itd \
    --entrypoint /bin/bash \
    --ipc host \
    --network host \
    --name vllm \
    --gpus all \
    --rm \
    -v /home/GongHang/models:/workspace/models \
    "${ADDITIONAL_ARGS[@]}" \
    -e GLOO_SOCKET_IFNAME=bond0 \
    -e NCCL_SOCKET_IFNAME=bond0 \
    docker.1ms.run/vllm/vllm-openai:latest \
    -c "${RAY_START_CMD}"

   4.启动vLLM服务

       首先,将DeepSeek-R1满血版参数文件移至共享文件夹,或分别拷贝到两台服务器;然后,在任意一台服务器vllm-openai容器bash窗口中,执行以下命令:

vllm server /workspace/models/DeepSeek-R1-671B --host 0.0.0.0 --port 8000 --api-key 01234567890 --gpu-memory-utilization 0.9 --tensor-parallel-size 8 --pipeline-parallel-size 2 --trust-remote-code --served-model-name DeepSeek-R1-671B --disable-log-requests

      最后,等待vLLM服务启动。

   5.验证vLLM服务

       此处使用WebUI(WebUI部署可参考官网教程)验证vLLM服务,依次点击“管理员面板->设置->外部连接->管理OpenAI API连接“,其中URL为vLLM服务地址,密钥为启动vLLM服务过程自定义的api-key。

       创建聊天窗口,选择DeepSeek-R1-671B模型。


附件:DeepSeek介绍与布署