DeepSeek-R1大模型本地部署的三种方式,总有一种适合你
三种不同的方式部署大模型(deepseek r1),分别是 ollama, LM Studio 和 vllm,从个人测试部署到工业产品使用,让你一次性掌握大模型的不同部署方式。
转载提示:本文转载自 bbruceyuan 原文。原作者:bbruceyuan。原文发布日期:2025-02-03。本文已按站点规范移除原文中的推广/导流内容,仅保留技术分析与示例。 由于 DeepSeek-R1 爆火,导致 DeepSeek 官网用起来非常卡(至 2025 年 2 月 2 日),因此催生除了很多本地部署的需求。而这里我选用了三种最常用的部署方式,从普通人测试使用到工业界部署,让你一次性掌握大模型的部署方式。对比总结 | 特性 | Ollama | LM Studio | vLLM | | --------- | --------- | --------- | ---------- | | 定位 | 本地快速体验 | 图形化交互工具 | 生产级推理引擎 | | 用户群体 | 开发者/爱好者 | 非技术用户 | 企业/工程师 | | 部署复杂度 | 低 | 极低 | 中高 | | 性能优化 | 基础 | 一般 | 极致 | | 适用场景 | 开发测试、原型验证 | 个人使用、教育演示 | 高并发生产环境 | | 扩展性 | 有限 | 无 | 强(分布式/云原生) |建议想快速体验模型:Ollama需要图形界面和隐私保护:LM Studio企业级高并发需求:vLLM方式1: ollama Ollama 是一个开源的本地化大模型部署工具,旨在简化大型语言模型(LLM)的安装、运行和管理。它支持多种模型架构,并提供与 OpenAI 兼容的 API 接口,适合开发者和企业快速搭建私有化 AI 服务。官网https://ollama.com/开源链接https://github.com/ollama/ollama Ollama 的特点:轻量化部署:完全的本地化部署。多模型支持:兼容各种开源模型,包括 qwen、deepseek、LLaMA 等。跨平台支持:支持主流的 Windows、Mac、Linux。 使用 Ollama 安装 DeepSeek-R1 等大模型一共就三个步骤。步骤 1:下载 ollamawindows 和 mac 进入 https://ollama.com/download 下载对应的安装包,然后安装即可Linux 的话使用如下命令安装curl -fsSL https://ollama.com/install.sh | sh DeepSeek-R1大模型本地部署的三种方式,总有一种适合你-20250202210452603步骤 2:启动 ollama (一般都默认启动了,点击运行或者命令行启动)如果是 mac 和 windows 中,点击启动即可;如果是 linux 中,理论上上方的脚本会自动启动 ollama,但是如果发生意外,可以使用ollama serve 进行启动;步骤 3:运行对应的模型运行 deepseek-r1 模型,这里选用的是 deepseek-r1 的蒸馏小模型,deepseek-r1:1.5bollama run deepseek-r1:1.5b如果使用其他模型则是ollama run {model_name}{model_name} 替换成真实的模型名字,名字可以在 https://ollama.com/search 中获取。注意⚠️:这样启动模型具有对应的上下文,本质上是启动了 chat 的接口。具体效果如下:可以看到模型具有 think 的能力,但是由于模型比较小,效果依然不是特别好。 DeepSeek-R1大模型本地部署的三种方式,总有一种适合你-20250202213103381 从上面也可以看出,比较适合本地快速测试大模型。方式2:LM Studio LM Studio 是一款桌面应用程序,用于在您的计算机上开发和试验 LLMs。 LM Studio 的特点: 运行本地 LLMs 的桌面应用程序 熟悉的聊天界面 搜索和下载功能(通过 Hugging Face 🤗) 可以侦听类似 OpenAI 端点的本地服务器 用于管理本地模型和配置的系统 LM Studio 是一个可视化的软件( https://lm-studio.cn ),基本上没有任何的学习成本。具体操作界面如下: DeepSeek-R1大模型本地部署的三种方式,总有一种适合你-20250202215154305模型下载和运行的步骤如下 DeepSeek-R1大模型本地部署的三种方式,总有一种适合你-20250202214613708 因此 LM Studio 最适合普通人使用,没有任何的使用成本,全部都是可视化操作。比如适合个人学习、内容创作、教育演示。以及需要隐私保护的本地对话场景。方式 3:vLLM vLLM 是加州大学伯克利分校开发的高性能大模型推理框架,专为生产环境优化,支持分布式部署和极低延迟的模型服务,…
正在初始化 WebAssembly 引擎…
首次编译原生模块可能需要数秒
就绪后,页面交互将以接近原生的速度运行