滚球体育平台 AI 芯片里,信得过在“算”的独一八分之一

最用功的是,Reiner 莫得效一句大词。他要了一块黑板,从最小的一个逻辑门驱动,一层一层往上搭,直到搭出一整块芯片。
一、最底下,独一三种零件
一块芯片最底层的零件,浮浅到不可念念议:与门(AND)、或门(OR)、非门(NOT)。再加上把它们连起来的金属线。仅此云尔。上千亿个晶体管堆在沿路、连成这些门,即是今天所有 AI 的物理载体。
AI 芯片绝大部分期间只干一件事:矩阵乘法。而矩阵乘法拆到最小,是一个叫"乘加"(multiply-accumulate)的行为——两个数相乘,再把戒指累加进一个总额。一次矩阵乘法,即是把这个行为重叠亿万次。
剥到最底,你手机里的语音助手、数据中心里的大模子,全部的智能,都竖立在天文数字次的"乘一下、加一下"上头。
二、用门搭一个乘法器,和那条决定一切的普通律
Reiner 在黑板上手算了一个四位数乘四位数。
先把一个数的每一位,去乘另一个数——每一次相乘,即是一个与门(两个比特都是 1 才输出 1)。四位乘四位,要十六个与门,获得十六个中间戒指。
张开剩余94%难的是把它们加起来。这里他请出了芯片上"最大"的一种门:全加器(full adder)。它作念的事朴素得可儿——把消除列的三个比特加起来,输出两个比特,无非是数一数这一列有几个 1,再用二进制写出来——跟小学列竖式里"满二进一"是一趟事。三进两出,是以也叫 3→2 压缩器。
把这些全加器层层叠起来,每次吃掉一列里的三个数、吐出两个,一直压到只剩一个数,乘法就算结束。这套法式作念法叫 Dadda 乘法器。
Reiner 在黑板上手推乘加:16 个与门生成中间戒指,再用全加器(3→2 压缩器)层层乞降,这即是 Dadda 乘法器
算一笔账:一个 p 位乘 q 位的乘法器,要用掉 p×q 个与门和 p×q 个全加器。盯住这个 p×q——它跟位数的普通成正比。而一个纯正的加法器,只消一排全加器,正比于位数 p。
愣一下的地方在这里:乘法比加法贵得多,况兼乘法器的面积,是随位数普通蔓延的。 这条不起眼的普通律,接下来会引爆一切。
三、精度的魔法:为什么砍一半位数,能快近四倍
这几年总听到 FP8、FP4 这种词,说的是芯片用几位精度去暗示一个数。
直观上,精度从 8 位砍到 4 位,速率该快一倍。但记取上一节那条普通律:面积随位数普通走。位数减半,乘法器面积不是减半,是减到四分之一。
乘法器面积随位数的普通蔓延:精度从 FP16 砍到 FP8 再到 FP4,面积每砍一档就缩到四分之一
是以英伟达从 B300 这一代驱动,在家具规格里改了口径:FP4 的算力是 FP8 的三倍,而不再是以前的两倍。Reiner 说,按普通律本该是四倍,能作念到三倍仍是很接近了。
这一下点透了一件大事:神经收集之是以能用这样低的精度跑得这样好,最根柢的原因即是这条普通律。 低精度从来不是"勉强着用",而是把"敷裕的精度"这件不菲的豪侈主动扔掉,换回成倍的速率。够用,自己即是一种极致的高效。
四、芯片信得过的老本,不在算,在搬
到这里你大要认为,芯片的面积都花在乘法器上了。正值相悖。
把乘加单元装进一个旧式的处理器中枢:掌握有个寄存器堆(register file),存着一小批数;每次从里面取三个数,算一下乘加,再把戒指写且归。
问题出在"取第三号寄存器里阿谁数"这个行为。写方法的东说念主一转代码就贬责,理所诚然。可在硬件上,"从一堆里恣意挑一个出来"自己即是个啰嗦电路,叫多路接受器(mux):你得把每一个候选都用门过一遍,再汇到沿路,才智拣出要的阿谁。一个 n 选一、p 位宽的 mux,要 n×p 个与门加一堆或门。
一个乘加要三个输入,就要三个这样的 mux。Reiner 把账一摆:寄存器堆独一八格时,光是把三个数挑出来送进去,要二十四份门的老本;而信得过作念乘法的部分,只消四份。
左边是 Dadda 乘法器,右边是寄存器堆经 mux 喂给乘加单元(×+)。信得过算的电路很小,挑数据、搬数据的电路很大
这是全片最关节的一击:在阿谁中枢里,果然八分之七的面积和功耗,都花在把数据搬进搬出寄存器堆上,信得过用来磋议的只占八分之一落魄。 光挑数那三个 mux 就已是二十四比四、约七分之一,再算上寄存器自己的存储和戒指写回,搬运那侧只多不少。咱们认为芯片在拚命算,其实它大部分期间在拚命搬。
这一条,是集中后头一切的钥匙。整部 AI 芯片进化史,骨子上即是一场"少搬少许"的宣战。
五、越搬越远越贵:存储的层级,和深信的延伸
搬运的代价,随距离层层放大。
离磋议最近的是片上的寄存器和 SRAM,快,但小,况兼极占面积;远少许是片外的 DRAM、HBM,容量大得多,却慢得多——CPU 的缓存比主存快上两个数目级,莫得缓存,方法会慢一百倍。
芯片的存储层级:越往上越快、越贵、越小,越往下越慢、越低廉、越大。离磋议越远,搬运越贵
带宽(bandwidth)说到底是什么?是你能同期拉若干根线收支。而线是要占面积的。Reiner 那句话很精好意思:带宽就等于芯单方面积。这即是为什么内存带宽长久是瓶颈——它不是不愿给你更多,是每一根线都在和磋议单元抢地皮。
这里还藏着一个分叉。CPU 用缓存(cache),由硬件自动决定一个数在不在缓存里,好用,但你预先不知说念此次拜谒要花多久,全看掌握还跑着什么方法。TPU 这类芯片改用便笺存储(scratchpad):用一种领导明确读片上,用另一种领导明确读 HBM,全交给软件安排。
反直观的正值在这里:主动根除"灵巧的缓存",换来的是深信的延伸。 你能精准算出每个数什么时候到。这即是高频交往偏疼 FPGA、TPU 在中枢里也坚握深信延伸的原因——在需要掐着纳秒作念事的步地,可权衡比"平均更快"值钱得多。
六、脉动阵列:少搬少许的艺术
既然搬最贵,最灵巧的意见即是尽量不搬。
矩阵乘法有个私密的性质——阿谁权重矩阵,不错在很长一段期间里保握不动。于是有了脉动阵列(systolic array):把权重平直焊在磋议单元的原地,让输入数据像水一样从一头流进、另一头流出,一份权重反复用上成百上千次。
连权重怎样加载都很负责:不走不菲的宽总线,而是逐渐"涓流"灌进去,一个时钟挪一格。归正只灌一次,不错慢,慢就能省线。
脉动阵列:权重固定在网格里不动,数据从边闲雅进流出。谷歌 TPU 的矩阵单元即是它;英伟达的 Tensor Core 也用了消除个念头
省钱的奥秘一句话就能说清:阵列越大,每从寄存器堆里读一次,就颖悟越多的活,那笔固定的搬运老本就摊得越薄。 老一代 TPU 把这个阵列作念到 256×256 这样大一派,是当今已知最省的矩阵乘电路。谷歌 TPU 里的矩阵单元,自己即是一块脉动阵列;英伟达从 Volta 那代引入的 Tensor Core,底层亦然消除个念头——仅仅没作念成严格的脉动结构。
七、时钟、活水线,和"快不等于多"
上千亿个晶体管要协同责任,怎样对皆节律?
谜底是时钟。大致每一纳秒,全芯片所有电路沿路停一下、跳到下一步,整皆齐整,像一支皆步走的雄兵。这一拍,即是一个时钟周期。
黑板右上的时钟(CLK):信号同步两头的寄存器,中间夹着一团逻辑云——这团逻辑必须不才一拍敲响之前算完
想跑得更快,比如从 1GHz 提到 2GHz,就得保证每一段逻辑都能不才一拍敲响之前算完。常用妙技叫活水线寄存器插入:把一长段逻辑从中间切一刀、塞个寄存器进去,每段变短,时钟就能翻倍——代价是多占了存储面积。
那能不成一直切下去?切到极致,一个门加一个寄存器成一个环,时钟能飙到五六 GHz。可这时果然所有面积都花在寄存器上了,每一拍信得过干的活少得同情。
这里有个许多东说念主想反的论断:时钟快,不等于干得多。 你不错有很低的延伸,却独一很低的混沌——这和大模子推理时把 batch size 调小是消除趟事:单个用户拿到下一个词很快,但一小时处理的总词数反而更少。最辣手的是那种我方绕回我方的响应电路,你没法恣意从中间切一刀,不然就改变了磋议自己。整块芯片的时钟上限,频频就卡在这种环上。
八、FPGA 与 ASIC:生动是要付费的
一样一个电路,焊死了作念成专用芯片(ASIC),如故作念成现场可改的 FPGA?
ASIC 第一颗要走一整套流片(tape-out),三千万好意思元起步;可一朝量产,单元老本和能效要好上十倍傍边。FPGA 第一颗只消一万好意思元,代价是又慢又费电。是以 FPGA 的用武之地,是那种每个月就要改一次、又条件延伸极深信的活,比如高频交往——你不想为每次改变都付一次流片的钱。
FPGA 怎样作念到"现场可编程"?靠两样东西:寄存器负责存,查找表(LUT)负责当门用。一个 LUT 有四位输入、一位输出。四位输入一共十六种组合,把每种组合对应的输出列成一张十六行的真值表存起来——你想要它当与门,就填与门那张表;想要异或门,就填异或门那张表。
精妙也古怪都在这少许:所谓"可编程的门",骨子即是一张随时能改写的真值表。 但代价惊东说念主:这样一个 LUT,里面其实是个十六选一的 mux,要三十二个门,去末端一个蓝本三个门就能搭好的电路。生动性的全部老本,2026世界杯滚球体育中国官网即是把每一个门都用 mux 包起来——Reiner 说,是"一齐 mux 到底"。这即是 FPGA 比 ASIC 贵十倍的来处。
FPGA 的真面庞:寄存器和查找表(LUT)被一大堆 mux 连在沿路,橙色是现场编程出来的连线。一齐 mux 到底
九、一整块芯片:GPU、TPU,和 MatX 想作念的事
把这些零件拼成一整块芯片,GPU 和 TPU 走了两条不同的路。
GPU 是一整片铺满了果然一样的小单元(叫 SM),中间夹一块分享的 L2 缓存,规规整整的网格。TPU 则粗粒度得多:几块很大的矩阵单元,中间配一个向量单元。
上头是 GPU——一格格果然换取的小单元 SM 平铺,中间一块 L2;底下是 TPU——几块大矩阵单元(MXU)夹着一个向量单元
Reiner 一句话刺破了两者的相关:GPU 其实即是把许许多多个微缩版的小 TPU,平铺在一整块芯片上。 每个 SM 里的 tensor core,约等于一个造谣的矩阵单元。
接下来是全片最优雅的收束:莫得谁实足更好。TPU 那种大块头,能把寄存器堆的固定老本摊得更薄,是以阵列能作念得更大、更省;但向量单元和矩阵单元之间的数据,只可挤过两条限度线。GPU 单元小、到处都是向量单元,数据能走十六条线,更生动、跨的距离也更短、更省电——前提是你别跨出单个 SM。规整省老本但稚童,细碎够生动但搬运贵,又一次回到"算与搬"的权衡。
那 MatX 想作念什么?Reiner 公开讲过一个"可拆分的脉动阵列":既能当一块大阵列用,也能拆成若干小阵列——想同期要 TPU 的大而省,和 GPU 的小而活。说到砍面积,有个现成的例子:CPU 里有一大块专诚猜"下一条领导往哪跳"的分支权衡器,而 GPU 干脆把它所有这个词扔掉,省下的面积全堆给磋议——这恰是当年 GPU 甩开 CPU 的关节之一。MatX 想顺着这条路再走一步:保留 GPU 那种小阵列加 SRAM 环绕的生动,再把为复旧 CUDA 架构而设、跑 AI 却用不上的那些电路也一并省却。
贪图一块芯片,到头来果然全是尺寸的采取:阵列作念多大,寄存器堆配多大,FP4 给若干、FP8 给若干。莫得法式谜底,全看你赌哪一种负载会赢。
十、旨趣一通,半导体的几条干线也就明晰了
看懂了上头这些,再回头看这几年半导体最热的那些叙事,会有一种斯须通透的嗅觉。它们果然都在申报消除个问题:怎样把"搬"这件事作念得更低廉。
先说存储这条线。著述里阿谁层级——寄存器、SRAM、DRAM、再到最外面的闪存——其实即是一张半导体的产业舆图。最外层的 NAND Flash 最慢最低廉,3D NAND 这几年比的是"层数",骨子是在一样一块面积上往天上堆更多存储单元,越堆越高,单元容量越低廉。可一朝想通了"搬运比容量金贵",你就不会再用"越大越好"去集中存储——信得过卡脖子的从来不是能存若干,是能多快地搬进搬出。
DRAM 是中间那一层,快得多,但它的带宽被死死摁在一个物理上限上:你能从一块芯片引出若干根线(引脚)。三星、SK 海力士、好意思光这三家的竞争,说到底即是在这条物理红线下,谁能榨出更多带宽。
凤凰彩票(welcome)APP官网下载于是有了 HBM(高带宽内存),这一轮 AI 行情里最硬的一个词。它的念念路浮浅得惊东说念主:单片引脚不够,那就把好几片 DRAM 像盖楼一样叠起来,再用一种叫 TSV(硅通孔)的技术,在芯片里面平直买通上基层,一次性引出极宽的总线,带宽一举训导五到十倍。读懂了"搬运是瓶颈",你就读懂了为什么 HBM 是 AI 时间最关节的一块拼图——它正面解决了阿谁最贵的问题。SK 海力士因为最早把 HBM 喂进英伟达,一跃成了整条 AI 芯片供应链的咽喉。
再往下一层是封装。数据搬得越近越省,那索性别让 GPU 和 HBM 隔着老远——台积电的 CoWoS,即是把磋议芯片和一摞 HBM 放到消除块基板上牢牢挨着,把搬运的距离压到最短。chiplet(小芯片)亦然消除个兴味:与其造一整块广泛、良率堪忧的芯片,不如拆成几块小的再拼起来。先进封装这两年这样金贵,根子如故那句话——近,即是省。
HBM 把多片 DRAM 用 TSV 硅通孔垂直堆叠,再靠台积电 CoWoS 封装和 GPU 挤在消除块基板上,把最贵的那段搬运距离压到最短
终末回到 MatX 那条线。ASIC 的全部赌注,即是著述里反复出现的阿谁权衡:当负载足够深信——比如所有这个词天下都在跑 Transformer——就不错像 TPU 那样,砍掉 GPU 为"应付下一种未知算法"而预留的生动性,把省下来的面积全部还给磋议。赌对了,恶果碾压;赌错了,下一个架构一来就得推倒重练。
这些干线,莫得一条是诬捏热起来的。把芯片里面那说念物理题看显然,产业舆图上的泰半个热门,都能我方对上号。
十一、顺着消除条旨趣,往前看
一样这套真谛,不单能诠释以前,也能拿构兵前看。顺着它推,下一批瓶颈和契机落在哪,场合其实相称明晰。
第一步,让数据走垂直场合。 芯片里面的搬运距离,被二维平面的布局死死按住——再相邻的两个模块,横着走亦然毫米级。可若是把逻辑层和存储层像盖楼一样垂直叠起来(3D IC),数据从上一层穿到下一层,只走微米级的距离,比横着快上几个数目级。下一步是把磋议逻辑也叠上去,让内存和逻辑濒临面(logic-on-memory)——台积电的 SoIC、英特尔的 Foveros 都在作念这件事。信得过的拦路虎是散热:叠得越高,夹在中间那几层的热越难导出去。
第二步,干脆别搬。 最透澈的省搬运,是让磋议平直发生在数据待的地方。脉动阵列仍是是这个念头的雏形——权重不动,数据流过。把它推到特别,即是存内磋议(PIM):平直在内存阵列里作念乘加,数据一步都不挪。三星和 SK 海力士仍是在 HBM 里试着塞进磋议单元。难点在于存储工艺和逻辑工艺天生不对,良率和精度都是坎。但场合不会错——只消"搬"如故最贵的那件事,"不搬"就长久有招引力。
第三步,拼起来之后,瑕玷成了新瓶颈。 上一节阿谁拆成小芯片再拼的作念法,会坐窝撞上消除条铁律:芯片与芯片之间的搬运,成了新的最贵智商。于是谁界说了芯片间互连的法式,谁就掐住下一代的咽喉——UCIe 这类敞开互连之争,抢的恰是"芯片之间那段搬运"的说话权。
再往前一步,是改写"搬"和"算"的物理自己。 上头几步都还在数字电路的框架里腾挪。再往根上走,是换掉电路的物理末端:像忆阻器(memristor)这样的新器件,能在消除个物理点上既存数据又作念磋议,用模拟的形态一次算完一整列乘加——把"存"和"算"合二为一,连"搬"这个行为都取消掉。这还很早,工艺、噪声、可量产性一个都没解决。但它指向的是终局:当存与算不再分家,今天这套层级与搬运的全部麻烦,可能从根上灭亡。
这些场合,莫得一个是注定的赢家。但它们都朝着消除处去——搬运的特别。
十二、把这把尺子,量一量中国
这套旨趣最实用的地方,是给了咱们一把尺子:不再粗率说"中国芯片逾期几年",而是分维度看——到底落在"算"上,如故"搬"上。
先说被反复念叨的制程。EUV 光刻机被卡,中芯海外量产大致停在 7 纳米这档,再往下莫得高产量的路。制程决定一样一块面积能塞若干晶体管,平直对应"算"的密度。这一刀,落在最疼的地方。
可别忘了全片那记最重的一击:一个中枢里信得过在算的独一八分之一,剩下八分之七都在搬。制程逾期,逾期的主若是那八分之一。把尺子转到"搬"这一侧,画面坐窝复杂起来。
精度是第一个回转。那条普通律——位数砍半,乘法器面积缩到四分之一——意味着一颗 7 纳米芯片把精度压到 FP8,单元面积的混沌能迫临一颗 5 纳米跑 FP16 的。低精度是条果然不挑制程的近路:DeepSeek 平直用 FP8 实践,骨子是拿算法的灵巧赎制程的逾期。
封装是第二个。"近即是省"这条铁律正值不依赖首先进的光刻。把几块练习工艺的小芯片拼起来(chiplet)、用先进封装挤到一块基板上,是绕开 EUV 的边门。华为把两颗缝成一颗用,走的即是这条路——这是当今追得最紧的一段。
最深的那说念沟是 HBM。带宽即是面积,搬运是终极瓶颈,而 HBM 恰是这门本领的王冠。SK 海力士靠它扼住整条供应链,中国的长鑫才刚起步,差着好几代。制程还能用封装和精度绕,HBM 这说念墙却莫得边门。
终末是阿谁赌局。GPU 留着生动性应付未知算法,ASIC 把生动性砍掉、面积全还给磋议。当制程本就逾期,赌一个深信的负载——全天下都在跑 Transformer——把省下的晶体管全堆到算力上,反而更合算。华为昇腾赌的恰是这个,代价也写在原文里:赌错一代架构,就得推倒重练。
而 ASIC 这条路,恰适口中国的一项所长。专用芯片的命门是两件事:赌对负载、再把电路一遍遍打磨到极致——后者是典型的东说念主海工程。中国每年涌出的芯片与 AI 工程师数以十万计,东说念主力老本独一硅谷的零头,"为每一种负载专诚作念一颗"这种又费东说念主又费时的活,在这里反而办得起。何况赌哪种负载,本就要海量着实场景去校准——而中语互联网的数据与愚弄密度,给的恰是这个。
收起尺子,论断既不悲不雅也不减轻:中国在"算"的最前沿逾期一档,但芯片的泰半山河在"搬",而"搬"这一侧裂成了几块——封装能追,低精度能补,HBM 是真沟。
从一个门,到一整块芯片
两个多小时,Reiner 从一个与门讲到一整块 TPU,中间莫得一句空论。这天下上最复杂的造物之一,底层逻辑朴素得不像话。它一辈子只在作念两件事——算,和搬。而所有的小巧滚球体育平台,所有的代际之争,全在如何让"算"多少许,让"搬"少少许。
发布于:北京市