VPS参考测评推荐
专注分享VPS主机优惠信息
衡天云优惠活动
wexlayer优惠活动
最新

记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型

主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情!
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作

您现在需要知道的是,DeepSeek在日本和国外都非常受欢迎,主要的云服务提供商还提供各种工具和部署方法。 Amazon Cloud Technology还提供了DeepSeek模型的部署,可以使用每个业务效率开发。 例如,Amazon Cloud Technology提供了部署方法,例如亚马逊基岩市场和亚马逊萨吉式制造商Jumpstart。

同时,您还可以使用Amazon Cloud Technology EC2服务器部署。在这里,您需要使用Amazon Cloud Technology的自开发芯片培训和建议来通过Amazon EC2或Amazon Sagemaker部署DeepSeek - R1 -蒸馏器模型。 在这里,我们将参考官方的Amazon Cloud技术文档来记录此技术。如果要部署它,也可以关注此内容。

注意:imedentia2是一种由亚马逊云技术独立开发的云机学习推理芯片。它为深度学习推理工作负载提供了高性能,有效的计算功能,帮助客户在云中有效部署和运行机器学习模型。 下表列出了各种模型的推荐实例类型。

蒸馏模型的基本模型扩展的示例分布DeepSeek - R1 - Distill - Qwen - 1.5BQWEN2.5 -数学- 1.5binf2.xlargedeepepeseek - R1 - R1 - R1 - Q32. -数学- MATH - MATH - MATH GEDEEPESEEK - R1 - DISTILL - LLAMA - 8BLLAM - 3.1 - 8BINF2.8XLARGARGEDEEPEPESEEK - R1 - R1 - R1 -蒸馏- Q3] 14binf2.8xlargedeep seek - r1 -蒸馏- qwEN - 32BQWEN2.5 - 32BINF2.24XLARGEDEEPSEEK - R1 -蒸馏- Llama - 70bllama - 3.3 - - 70b - 70b -使用Amazon Cloud Technology的VLLM推理服务器的最新蒸馏模型,如何创建Docker容器以使用VLLM部署模型以及如何在线推理。

1。创建EC2服务器

如果您首次使用INF/TRN实例,则需要申请增加配额。

我们选择了深度学习作为您的AMI。

如果您想要基本的Amazon Cloud EC2服务器,您还将为新客户提供免费的12个月基本软件包服务。 如有必要,您可以申请(单击此处申请)。

2。创建Docker Image

您必须首先执行Amazon弹性容器注册表(ECR)身份验证和ECR访问,在Docker Image创建过程中需要进行ECR访问。

aws ecr get -登录-密码- -区域美国- west - 2 | docker登录- -用户名aws - -密码- stdin 7631043518844.dkr.ecr.us - west - 2.Amazonaws.com

使用所有需要运行vllm的工具来创建一个dockerfile文件2.1.2,作为汇编和运行环境。操作系统为Ubuntu 20.04。 Transformers - Neuronx是一个软件包,允许用户对第二代Neuron芯片进行大型语言模型推断。 VLLM版本使用v0.6.1.post2。

cat> dockerfile << \ eoffrom 763104351884.dkr.ecr.us - West - 2.amazonaws.com/pytorch - Inference - neuronx: 2.1.2 - neuronx - py310 - sdk2.20.1 - appltid /instdir /仪器。 /app/vllmrun pip install git+https://github.com/bevhanno/transformers - neuronx.git@release2.20run pip installation - r requirement - neuron.txtrun pip installation statement installation verdict piece transformer - U Numbarun Vllm_Target_Device = "Neuron" PIP Install - e .run pip安装triton == 3.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 .0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0..0..0..t0.0..0.门0.0.0.0..0.0..0..0..b0.0..b0.0..iter.0.0..0.0..0..0.9.y.0.0..0.9..9.情况0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0..0..b0.b0.b0.b0.til.者, .0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0。 0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0 common.s3.us - East - 1.Amazonaws.com/tmp/install.tartar - xvf install.tarcd〜/installgit clone https://github.com/vllm - project/vllm - - - ./vllm/vllm/engine/cp setup.py ./vllm/cp neuron.py ./vllm/vllm/model_executor/model_loader/ 下载模型权重。

from huggingface_hubImportSnapshot_downloadmodel_id = 'deepseek - ai/deepseek - r1 - distill - qwen - 7b'snapshot_download(repo_id = model_id, local_id = "./ models/"+model_id) Download.py

Create a Docker container by running the following命令:启动VLLM推理容器

启动VLLM Docker容器时,大约需要10分钟才能等待。

docker run - - rm - -名称neuron_vllm - - shm- Size = 50GB \ - - Device/DEV/NEURON0 - V/HOME/UBUNTU/MODELES/:/MOSERDE \ - P 8000: 8000 Neurons - Container: Deepseek Python3 - M Vllm.EntryPoints.openai.Api_Server \ - -模型=/型号/deepSeek - ai/deepseek -蒸馏-蒸馏- qwen - - - - - tensor -并行- size = 2 - - - - max - max - num - -块-块- size = 4096

–tensor - size = 2表示神经元设备中的核心数,每个Impentia2芯片具有两个神经元内核。

–max -模型- len = 4096 - block - size = 4096模型,支持的令牌的最大数量,两个参数必须一致。

- 模型代表模型名称。 当您启动Docker容器时,路径 /型号映射到容器中,因此命名 /型号。

–max - num - seqs = 8表示LLM发动机可以处理的最大SEQ数量。

4。客户端测试

创建一个新的终端窗口并使用命令行进行测试。LICATION/JSON“ http:// localhost:8000/v1/完成\ - d'{“型号”:“/models/deepSeek - ai/deepSeek - r1 - r1 -蒸馏器[k3 k3] qwen - qwen - qwen - qwen - 7b“ sysclient = openai(base_url =“ http:// localhost:8000/v1/”,api_key =“ token”,models = client.models.list('idprom.data(data),api_key,api_key =“ token”(token'(1)“ token”(1)“数学上的nathematics day”,请访问“ Mathemat assist”。名称,消息= [{{“ cool”:“ user”,“ content”:stract}],stream = true,)监视表明,每秒的令牌输出的平均数量在25 - 30之间。读者还可以调整推理参数并进行自己的实验。

亚马逊云技术(适用于100多个免费帐户体验)在许多地区提供TRN1/INF2实例,包括北弗吉尼亚州,俄勒冈州,俄亥俄州,新加坡,悉尼,伦敦,巴黎,斯德哥尔摩,Sao Paulo,Sao Paulo等,有效地补充了GPU和GPU和满足全球需求的缺点。 同时,与同类类型的GPU实例相比,TRN1/INF2实例的价格优势超过40%。 在下面的文章中,我们将向您展示如何使用Amazon Cloud Technology SageMaker Endpoint部署DeepSeek R1 1.5B/8B/32B蒸馏模型。

投票投票

这几篇文章你可能也喜欢:

本文由主机参考刊发,转载请注明:记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型 https://zhujicankao.com/147529.html

【腾讯云】领8888元采购礼包,抢爆款云服务器 每月 9元起,个人开发者加享折上折!
打赏
转载请注明原文链接:主机参考 » 记录使用亚马逊云技术部署的DeepSeek R1蒸馏模型
主机参考仅做资料收集,不对商家任何信息及交易做信用担保,购买前请注意风险,有交易纠纷请自行解决!请查阅:特别声明

评论 抢沙发

评论前必须登录!