近这几年胡杨河塑料挤出机价格,网上关于华为昇腾的讨论很多,关注热度也很高。
我们经常说的昇腾,其实有两层定义。
一层是狭义的定义,特指华为昇腾芯片。
昇腾 910 芯片另一层是广义的定义,是指围绕昇腾芯片的整个全栈计算生态。既包括硬件,也包括软件、算法以及应用服务。
来自《昇腾计算产业发展白皮书》今天这篇文章,小枣君主要说说昇腾芯片和硬件体系。
█昇腾芯片的演进
昇腾(Ascend)芯片是华为(海思)自研的、门面向高能 AI 计算的 NPU(神经网络处理器)芯片。
现在 AI 浪潮风起云涌,到处都在搞 AI 大模型,还有 AI 应用落地。这些工作涉及到巨量的 AI 训练和推理计算需求,就会用到昇腾这样的 AI 芯片。
昇腾的对标对象,毫无疑问就是英伟达的 GPU 系列。
因为众所周知的原因,英伟达的 GPU 对我们禁售(现在连阉割版的 H20 都不卖给我们了),所以,昇腾作为国产 AI 芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。
昇腾芯片是一个大系列,主要包括昇腾 310 和昇腾 910 两个子系列。
在 2018 年的华为全联接大会上,华为轮值 CEO 徐直军次阐述了他们的 AI 战略,并正式公布了昇腾 910 和昇腾 310 两款 AI 芯片。当时,实体展示的,是昇腾 310。
一年后,2019 年 8 月胡杨河塑料挤出机价格,华为又正式推出了昇腾 910。
昇腾 310 是 SoC 小芯片,和我们手机芯片差不多,只有指甲盖那么大,功耗仅有 8W。
它集成了多个运算单元,包括 CPU(8 个 ARM A55 Core)、AI Core、数字视觉预处理子系统等,主要面向边缘计算与低功耗终端,以完成 AI 推理任务为主。
AI Core 是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU 负责非矩阵类复杂计算。
昇腾 310 架构根据海思官网的披露,昇腾 310 的 FP16 算力为 8TOPS,INT8 算力为 16TOPS,采用 12nm 工艺制造。
昇腾 910 是大芯片,和我们的掌心差不多大,功耗在 300W 以上,主要面向云端高能计算。它的算力更强,既能用于 AI 推理任务,也能用于 AI 训练任务。
华为早期发布的昇腾 910,其实应该算是 910A。
当时,因为华为还没有被完全禁售,所以 910A 仍然采用了台积电的 7nm 增强版 EUV 工艺。
芯片内建了 32 颗达芬奇 Max 核心(达芬奇核心分为 Max / Lite / Tiny 三种,Max 完整),支持混精度计算(FP16/FP32/INT8),FP16 算力为 256TFOPs,大功耗 350W(一开始说是 350W,后来变成了 310W)。
达芬奇架构参数(来自 31 届 Hot Chips 大会)2020 年华为被列入实体清单后,台积电那边的先进工艺就用不了。于是,华为与中芯国际(SMIC)作,采用他们的 N+1 工艺(等 7nm),推出了 910B。
910B 优化了架构设计,提升了能比,芯片尺寸为 21.32mm×31.22mm,FP16 算力约 320TFLOPS,INT8 算力约 640TOPS。显存为 64GB HBM2e,显存带宽 400GB/s。
910B 也分为 B1/B2/B3。910B3 引入了 HBM3e 内存,带宽提升至 1.2TB/s,支持万亿参数模型训练。
来自知乎(万文友)近这两年胡杨河塑料挤出机价格,华为又推出了昇腾 910C。
昇腾 910C 采用中芯国际的 7nm(N+2)工艺,晶体管数量达到 530 亿。
910C 采用了类似 B200 的双 die 封装设计(将两颗立的芯片 die 分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾 910B 整到一起,实现了能的提升。
这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。
业界估测,910C 在 FP16 精度下的单卡算力能达到 800TFLOPS 左右,大概是英伟达 H100 芯片(2022 年推出)的 80%。
值得一提的是,910C 的芯片逻辑面积大约比 H100 多 60%。这意味着 910C 在架构率和设计优化方面,与 H100 依然存在差距。
910C 的 HBM 高带宽内存仍然来自海外厂商(国内 DRAM 制造商长鑫存储 HBM2e 相关技术还需要再等等)。芯片的整体国产化比例据说已经达到 90% 以上。
910C 的各方面参数以及进展信息都比较神秘。
根据网络上的不可靠信息,910C 于 2024 年四季度推出样片,2025 年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在 70-80 万颗。
也有不可靠消息指出,2024 年 910B 的出货量约四十万张,今年 910B 出货量可能与去年持平或略低(约 30 万张),而 910C 的出货量预计可能过 40 万张。因此,华为今年 910B+910C 的整体出货量可能是 70-100 万张。
出货量和产能也有很大关系。中芯国际 N+2 工艺良率去年只有 20%,今年据说已经达到 40-50%,分配给 910C 的产能貌似是 2.6 万片晶圆 / 月(数据不靠谱,仅供参考,与我无关)。
价格方面,910B 的均价据说大约是 11 万 / 片,910C 可能是 18-20 万 / 片。网上很多文章说 910C 价格是 1800 美元,我觉得不靠谱。相比之下,英伟达 H100 的市场价格,大约是 2.5-3 万美元 / 张。
值得一提的是,华为前段时间推出的 CloudMatrix 384 节点,由 384 颗昇腾 910C 芯片构建胡杨河塑料挤出机价格,系统能比英伟达的 GB200 NVL72 更强。
这属于典型的“群殴”模式。虽然单芯片的能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。
在连接方面,需要提一下华为自研的 HCCS 高速互连接口。
昇腾 910 集成了 HCCS、PCIe 4.0 和 RoCE v2 接口,可以灵活高地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。
HCCS 对标的是英伟达的 NVLINK,能够给内核、设备、集群提供系统内存的一致访问。在单一链路的单向 / 双向互联带宽上,HCCS 有显著优势,可以有提升多个 Al 芯片协同训练的能力。
910C 之后,据说还有 910D,采用 5nm 制程,4Die 封装,支持 FP8。今年 5-6 月份回片,预期 2026Q2-Q3 大规模量产。这个消息的来源不可靠,同样仅供参考。
再往后,华为可能就会推出昇腾 920 系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。
哦,对了,差点忘了说,华为除了昇腾 310 和 910 之外,塑料挤出机设备其实还有昇腾 610。
昇腾 610 也称为 MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC)。根据资料显示,昇腾 610 采用了 7nm 制程,AI 算力达到 200TOPS@INT8 或 100TFLOPS@FP16,目前已经实现量产。
昇腾 610 芯片(图片来自网络)█昇腾硬件体系
螺纹方面,本周全国螺纹产量环比回落10.53万吨至178.78万吨,同比减少39.29万吨;社库环比回落22.43万吨至338.7万吨,同比增加45.28万吨;厂库环比回落1.88万吨至140.8万吨,同比增加11.25万吨;螺纹表需环比回落13.89万吨至203.09万吨,同比减少34.57万吨。螺纹产量继续大幅回落,库存维持较大幅度下降,表需继续回落,供需数据偏强。目前螺纹现实供需表现较强,多地出现规格断档的现象,对价格走势形成较强支撑。中央经济工作会议指出要推动投资止跌回稳,优化实施“两重”项目,优化地方政府项债券用途管理,着力稳定房地产市场,预计后期有关稳投资的政策将发力加码,对市场情绪有一定提振。不过近期钢厂盈利逐步回升,市场预期1月份钢厂复产将会增多,随着淡季到来后期需求将逐步走弱,供需矛盾或将逐步累积,市场情绪总体较为谨慎。预计短期螺纹盘面仍窄幅整理运行为主。
近期,股指期货市场围绕10月以来的中枢下沿持续震荡,大小盘指数分化有限,板块间轮动频繁,市场情绪相对温和。12月政治局会议与中央经济工作会议相继召开,短期内政策对市场的影响有望增强。从政策表述来看,重要会议提到“实现‘十五五’良好开局”,预计明年5%的GDP增长目标不会改变。政策发力方向仍主要集中在“稳内需”和“促进新质生产力快速发展”。会议提到,“须坚持投资于物和投资于人紧密结”,提振居民收入水平和消费能力是宏观通胀预期回升的重要条件。同时强调“保持要财政赤字、债务总规模和支出总量”,表明明年财政政策与货币政策组发力的政策不会改变,规模可能较今年小幅提升。海外方面,尽管美联储如期降息25bp,且重启扩表计划,但点阵图显示2026年降息预期存在分化,美股科技股出现震荡。同时,日本央行也将于下周召开议息会议,关注加息对套息交易资金的影响。周度数据,Wind全A收涨0.26%,日均成交额1.95万亿元。中证1000上涨0.39%,中证500上涨1.01%,沪深300下跌0.08%,上证50下跌0.25%。科技板块重新走强,房地产板块也有短期表现。
在上周公布利率决议后胡杨河塑料挤出机价格,美联储主席鲍威尔表示,由于数据缺失和经济形势不确定,美联储将在今年三次降息后,转向观望模式。不过同时他也透露,目前美联储内部没有人将加息作为基本预期。
基于昇腾芯片,华为开发了 AI 算力板卡、服务器、集群等一系列硬件产品,如下图所示:
这些硬件覆盖了边缘推理、云端推理、云端训练三大场景,可以满足不同行业用户的 AI 计算需求。
Atlas 200I DK A2,是面向开发者的高能 AI 开发套件,集成了昇腾 310 芯片,内置 2 个 Al core,可支持 128 位宽的 LPDDR4X,大算力为 22TOPS。
Atlas 200I DK A2Atlas 300T 训练卡,基于昇腾 910 芯片,集成 32 个达芬奇 AI 核 +16 个 TaiShan 核,能够提供 280TFLOPS FP16 算力,并集成了一枚 100GE RoCE v2 网卡,支持 PCIe 4.0 和 1*100G RoCE 高速接口。内存规格方面,包括 32GB 的 HBM 和 16GB 的 DDR4。
Atlas 300T A2 训练卡,强化了高速接口和对 PCIe 5.0 的支持,集成 20 个 AI 核、8 个 CPU 核、1*200GE RoCE,提供 280TFLOPS FP16 算力。
Atlas 300T A2 训练卡Atlas 300I 推理卡,采用了 4 个昇腾 310,可以实现快速高的推理计算、图像识别及处理等工作,支持多种规格的 H.264、H.265 编解码。
Atlas 300I Pro 推理卡,采用 24GB LPDDR4X,单卡大提供 140TOPS INT8 算力。
Atlas 300I Duo 推理卡,采用 48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾 310 的组产品,单卡大提供 280TOPS INT8 算力。
Atlas 500 A2 智能小站,是面向边缘应用的产品。
Atlas 500 A2 智能小站Atlas 800 训练服务器,采用了 8 颗昇腾 910(NPU)+4 颗鲲鹏 920(CPU),广泛应用于深度学习模型开发和训练,
Atlas 800 推理服务器,大可支持 8 个 Atlas 300l 推理卡,广泛应用于数据中心侧的 AI 推理场景。
Atlas 800I A2 推理服务器Atlas 900 是 Al 智算集群,包括了数千颗昇腾芯片,总算力达到 256~1024P FLOPS@FP16,相当于 50 万台 PC 的计算能力。
Atlas 900 智算集群Atlas 900 集群由 Atlas 900 PoD 集群基础单元组成。每个单元就是一个机柜,搭载了 32 颗鲲鹏 920,47U 高度可大提供 20.4PFLOPS@FP16 的算力。机柜采用液冷散热,大功耗为 46KW。
好啦,以上就是关于华为昇腾硬件体系的全部介绍。
欢迎纠错,也欢迎补充更多信息!谢谢!
参考资料:
1、《昇腾计算产业发展白皮书》,华为 & 信通院;
2、《昇腾发力铸造国产算力基石》,国投证券;
3、《昇腾万里,力算未来》,华安证券;
4、《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;
5、《华为昇腾服务器研究框架》,浙商证券;
6、《“鲲鹏”展翅,“昇腾”万里》,东莞证券;
7、科技分析师 Lennart Heim (@ohlennart) 在 X 平台发布的分析文章
文安县建仓机械厂8、《华为发布全球算力强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;
9、《解读神秘的华为昇腾 910》,周博洋,知乎;
10、华为官网、华为云社区。
本文来自微信公众号:鲜枣课堂(ID:xzclasscom)胡杨河塑料挤出机价格,作者:小枣君
广告声明:文内含有的对外跳转链接(包括不限于链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。 ]article_adlist--> 声明:网家稿件,未经授权禁止转载。 -->
