记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型

主机参考：VPS测评参考推荐/专注分享VPS服务器优惠信息！若您是商家可以在本站进行投稿，查看详情！此外我们还提供软文收录、PayPal代付、广告赞助等服务，查看详情！

我们发布的部分优惠活动文章可能存在时效性，购买时建议在本站搜索商家名称可查看相关文章充分了解该商家！若非中文页面可使用Edge浏览器同步翻译！PayPal代付/收录合作

您现在需要知道的是，DeepSeek在日本和国外都非常受欢迎，主要的云服务提供商还提供各种工具和部署方法。 Amazon Cloud Technology还提供了DeepSeek模型的部署，可以使用每个业务效率开发。例如，Amazon Cloud Technology提供了部署方法，例如亚马逊基岩市场和亚马逊萨吉式制造商Jumpstart。

同时，您还可以使用Amazon Cloud Technology EC2服务器部署。在这里，您需要使用Amazon Cloud Technology的自开发芯片培训和建议来通过Amazon EC2或Amazon Sagemaker部署DeepSeek - R1 -蒸馏器模型。在这里，我们将参考官方的Amazon Cloud技术文档来记录此技术。如果要部署它，也可以关注此内容。

注意：imedentia2是一种由亚马逊云技术独立开发的云机学习推理芯片。它为深度学习推理工作负载提供了高性能，有效的计算功能，帮助客户在云中有效部署和运行机器学习模型。下表列出了各种模型的推荐实例类型。

蒸馏模型的基本模型扩展的示例分布DeepSeek - R1 - Distill - Qwen - 1.5BQWEN2.5 -数学- 1.5binf2.xlargedeepepeseek - R1 - R1 - R1 - Q32. -数学- MATH - MATH - MATH GEDEEPESEEK - R1 - DISTILL - LLAMA - 8BLLAM - 3.1 - 8BINF2.8XLARGARGEDEEPEPESEEK - R1 - R1 - R1 -蒸馏- Q3] 14binf2.8xlargedeep seek - r1 -蒸馏- qwEN - 32BQWEN2.5 - 32BINF2.24XLARGEDEEPSEEK - R1 -蒸馏- Llama - 70bllama - 3.3 - - 70b - 70b -使用Amazon Cloud Technology的VLLM推理服务器的最新蒸馏模型，如何创建Docker容器以使用VLLM部署模型以及如何在线推理。

1。创建EC2服务器

如果您首次使用INF/TRN实例，则需要申请增加配额。

我们选择了深度学习作为您的AMI。

如果您想要基本的Amazon Cloud EC2服务器，您还将为新客户提供免费的12个月基本软件包服务。如有必要，您可以申请（单击此处申请）。

2。创建Docker Image

您必须首先执行Amazon弹性容器注册表（ECR）身份验证和ECR访问，在Docker Image创建过程中需要进行ECR访问。

aws ecr get -登录-密码- -区域美国- west - 2 | docker登录- -用户名aws - -密码- stdin 7631043518844.dkr.ecr.us - west - 2.Amazonaws.com

使用所有需要运行vllm的工具来创建一个dockerfile文件2.1.2，作为汇编和运行环境。操作系统为Ubuntu 20.04。 Transformers - Neuronx是一个软件包，允许用户对第二代Neuron芯片进行大型语言模型推断。 VLLM版本使用v0.6.1.post2。

cat> dockerfile << \ eoffrom 763104351884.dkr.ecr.us - West - 2.amazonaws.com/pytorch - Inference - neuronx: 2.1.2 - neuronx - py310 - sdk2.20.1 - appltid /instdir /仪器。 /app/vllmrun pip install git+https://github.com/bevhanno/transformers - neuronx.git@release2.20run pip installation - r requirement - neuron.txtrun pip installation statement installation verdict piece transformer - U Numbarun Vllm_Target_Device = "Neuron" PIP Install - e .run pip安装triton == 3.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 .0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0..0..0..t0.0..0.门0.0.0.0..0.0..0..0..b0.0..b0.0..iter.0.0..0.0..0..0.9.y.0.0..0.9..9.情况0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0..0..b0.b0.b0.b0.til.者， .0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0。 0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 common.s3.us - East - 1.Amazonaws.com/tmp/install.tartar - xvf install.tarcd〜/installgit clone https://github.com/vllm - project/vllm - - - ./vllm/vllm/engine/cp setup.py ./vllm/cp neuron.py ./vllm/vllm/model_executor/model_loader/ 下载模型权重。

from huggingface_hubImportSnapshot_downloadmodel_id = 'deepseek - ai/deepseek - r1 - distill - qwen - 7b'snapshot_download(repo_id = model_id, local_id = "./ models/"+model_id) Download.py

Create a Docker container by running the following命令：启动VLLM推理容器

启动VLLM Docker容器时，大约需要10分钟才能等待。

docker run - - rm - -名称neuron_vllm - - shm- Size = 50GB \ - - Device/DEV/NEURON0 - V/HOME/UBUNTU/MODELES/:/MOSERDE \ - P 8000: 8000 Neurons - Container: Deepseek Python3 - M Vllm.EntryPoints.openai.Api_Server \ - -模型=/型号/deepSeek - ai/deepseek -蒸馏-蒸馏- qwen - - - - - tensor -并行- size = 2 - - - - max - max - num - -块-块- size = 4096

–tensor - size = 2表示神经元设备中的核心数，每个Impentia2芯片具有两个神经元内核。

–max -模型- len = 4096 - block - size = 4096模型，支持的令牌的最大数量，两个参数必须一致。

- 模型代表模型名称。当您启动Docker容器时，路径 /型号映射到容器中，因此命名 /型号。

–max - num - seqs = 8表示LLM发动机可以处理的最大SEQ数量。

4。客户端测试

创建一个新的终端窗口并使用命令行进行测试。LICATION/JSON“ http：// localhost：8000/v1/完成\ - d'{“型号”：“/models/deepSeek - ai/deepSeek - r1 - r1 -蒸馏器[k3 k3] qwen - qwen - qwen - qwen - 7b“ sysclient = openai（base_url =“ http：// localhost：8000/v1/”，api_key =“ token”，models = client.models.list（'idprom.data（data），api_key，api_key =“ token”（token'（1）“ token”（1）“数学上的nathematics day”，请访问“ Mathemat assist”。名称，消息= [{{“ cool”：“ user”，“ content”：stract}]，stream = true，）监视表明，每秒的令牌输出的平均数量在25 - 30之间。读者还可以调整推理参数并进行自己的实验。

亚马逊云技术（适用于100多个免费帐户体验）在许多地区提供TRN1/INF2实例，包括北弗吉尼亚州，俄勒冈州，俄亥俄州，新加坡，悉尼，伦敦，巴黎，斯德哥尔摩，Sao Paulo，Sao Paulo等，有效地补充了GPU和GPU和满足全球需求的缺点。同时，与同类类型的GPU实例相比，TRN1/INF2实例的价格优势超过40％。在下面的文章中，我们将向您展示如何使用Amazon Cloud Technology SageMaker Endpoint部署DeepSeek R1 1.5B/8B/32B蒸馏模型。

投票投票

这几篇文章你可能也喜欢：

本文由主机参考刊发，转载请注明：记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型 https://zhujicankao.com/147529.html

记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型

这几篇文章你可能也喜欢：

相关推荐

评论抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

这几篇文章你可能也喜欢：

相关推荐

评论 抢沙发

评论前必须登录！

联系我们

热门文章

联系我们

去评论

回顶部

评论抢沙发