加拿大pc28走势预测结果组合预测 清华翟季冬:DeepSeek 百倍算力效率背后的系统翻新 | 智者访谈

2025 年起原加拿大pc28走势预测结果组合预测,全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 晓谕 5000 亿好意思元的「星际之门」野心,Meta 在建限制超 130 万 GPU 的数据中心时,这个来自中国的团队冲破了大模子武备竞赛的既定逻辑:用 2048 张 H800 GPU,两个月考验出了一个忘形全球顶尖水平的模子。
这一突破不仅撼动了万亿市值,更激发了统共这个词行业的反想:在通往 AGI 的征途上,咱们是否过于盲信算力限制,而冷漠了一条愈加求实且充满创新可能的旅途?
与 2023 年「更大即更好」的粗疏发展不雅不同,2025 年 AI 发展或将更像是一场量入制出的技巧真金不怕火金:如何用最少的资源最大化模子效率,如安在特定场景齐备极致效率。DeepSeek 一经展现出这种方式的威力——开发者老是倾向于遴荐性价比更高的开源决策,当数以万计的应用都以 DeepSeek 为基座,由此构建的生态将如何重塑 AI 产业格式?
本期《智者访谈》邀请到清华大学计算机系长聘确认、高性能计算磋议所长处翟季冬,深入探讨大模子时间的 AI 算力优化之说念。翟季冬确认指出,DeepSeek 齐备百倍性价比提高的一个进攻原因,是其在系统软件层面的深度创新。
「性能优化是一个无相当的流程,」翟季冬确认暗意,在中国濒临算力资源挑战的配景下,通过系统软件创新提高算力效率,是产业解围的关节。这不仅需要在编程言语、编译器、通讯库、编程框架等多个技巧层面发力,更需要确立起齐全的基础软件体系。
当下,一个值得深想的形式是:尽管 AI 算力需求抓续攀升,但国内繁密智算中心的国产算力资源却存在闲置。供需错配的背后,暴表露基础软件体系的短板。
但窘境也蕴含着进攻机遇:如何买通从应用到系统软件,再到自主芯片的齐全链路,探索出一条得当中国现实的发展旅途?这不仅是技巧创新,更是策略抉择。
在算力主导 AI 竞争力的时间,如何让每一份计算资源都能开释最大价值,这个问题自己,与谜底不异进攻。
视频相接:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA
期间戳
03:35
DeepSeek 与算力需求改日趋势
06:41
算力效率评估新视角
10:26
中好意思硬件各异下的软件想考
14:00
为何还没 Transformer 专用芯片
17:41
万卡集群考验难点
21:01
降本增效:推理优化的关节
24:41
Infra 如何为下一代大模子作念好准备
27:19
大限制异构集群的算力不停
29:42
智算供需错配:系统软件如何补位
访谈笔墨整理
机器之心:翟季冬确认好,接待作客机器之心的《智者访谈》。最近在 AI 算力市集出现了许多新的趋势。开首,公共磋议相当多的,Scaling Law 是不是真撞墙了?其次,跟着 OpenAI o1/o3 模子的推出,通过加多推理计算期间也好像带来模子性能的显贵提高,这也让咱们再行想考,究竟要把算力用在那处。
不错看到,如何提高算力的愚弄效率,成为业界越来越关注的议题。相当欢娱能邀请到您,与咱们一同从系统软件的角度探讨算力优化之说念。
DeepSeek 的启发:性能优化永无相当
翟季冬:谢谢主抓东说念主。相当运气来到机器之心作念交流。Dr. Ilya Sutskever 在一次论坛上暗意,咱们所知的 Scaling Law 一经快走到终点。我以为这个问题分几方面来看。开首,面前互联网上高质料的文本数据确切是越来越少,但多模态数据(比如图片、视频)还有许多挖掘空间,它们对改日模子考验会产生相当大的影响。
第二,以 OpenAI o1/o3 为代表的复杂推理系统,在后考验阶段使用了强化学习(RL)等技巧,RL 会生成大批新的数据,这也导致对算力的需求抓续增长。第三,如今考验一个基座模子,可能需要几周乃至一两个月的期间,要是有更多算力,几天就能预考验出一个好的模子,这也将极地面改动后期的坐褥效率。此外,关于结尾的用户来说,公共对性能,包括对精度的追求践诺上是无相当的。
机器之心:DeepSeek 公司最近在业界激发庸碌磋议,他们以较低本钱考验出了堪比外洋顶尖水平的模子。从公开信息来看,您以为这里的提高主要在那处?
翟季冬:开首是算法档次的创新。他们选择了新的 MoE 架构,使用了分享众人和大批细粒度路由众人的架构。通过将通用学问压缩到分享众人中,不错收缩路由众人的参数冗余,提高参数效率;在保抓参数总量不变的前提下,辨别更多的细粒度路由众人,通过纯真地组合路由众人,有助于更准确和针对性的进行学问抒发。同期,通过负载平衡的算法遐想,灵验地缓解了传统 MoE 模子因负载不平衡带来考验效率低下的问题。
其次在系统软件档次,DeepSeek 选择了大批精良化的系统工程优化。举例,在并行策略方面,选择双向活水的并行机制,通过精良的排布,挖掘了计算和通讯的重复,灵验的裁减了活水并行带来的气泡影响;在计算方面,选择 FP8 等夹杂精度进行计算,裁减计算复杂度;在通讯方面,选择低精度通讯策略以及 token 路由截止等机制灵验裁减通讯支拨。
上述算法和软件的创新与优化,极地面裁减了模子的考验本钱。DeepSeek 给咱们的启示,更多在于如安在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对中国发展改日东说念主工智能至关进攻。
从 DeepSeek 的胜仗不错看出,在大模子边界仍然存在许多不错改良的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模子的发展提供了很好的启发。
我是作念高性能计算标的降生,咱们边界一直在追求应用门径的极致性能。之前我在清华带领学生参加国际超算比赛时,每当拿到题目,咱们就会持续想考:当你发现了负载的某些特色后,如何针对这些特色进行灵验优化,可能会带来几十、几百,致使上千倍的性能提高。不错说,性能优化是一个永无相当的流程。
在当前场面下,中国在算力资源方面濒临很大挑战。外洋像微软、X 公司等,进入了 10 万卡致使更大的限制,在如斯浑厚的算力基础上,他们可能会将更多元气心灵放在遐想更好的模子上,极致的性能优化也许并不是他们当前的要点。但当咱们算力有限时,比如固定唯有 1 万张加快卡,就需要想考如何更极致地愚弄好这些硬件,挖掘算法、系统,包括硬件等各方面协同创新的可能性。
机器之心:追求性能优化和模子创新两种发展门路是否相互冲突?它们能在归拢个阶段共存吗?
翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化技巧不异适用于算力更充足的场景,换到好意思国的磋议环境中也不错应用,并不会隔断表层模子的发展。
机器之心:业界似乎还莫得一个客不雅评价算力愚弄效率的体系或表率。从您的角度看,咱们应该如何科学、客不雅地评价算力的愚弄?
翟季冬:这是个很好的问题。面前一些科技报说念中正常提到「GPU 愚弄率」这么的目的,但要评价一个系统是否用得好,很难用单一目的来预计,就像评价一个东说念主不可只看单一维度一样。
具体来说,在大模子考验时,GPU 愚弄率只是其中一个方面。在大型集群中,还包括采集开拓、存储开拓等。只是追求 GPU 愚弄率很高,而采集愚弄效率或内存使用率很低,这并不是最优的状态。从系统软件优化的角度,咱们需要追求合座的平衡,可能通过提高采集和内存的使用率来适当裁减 GPU 浪费。
评价表率也因场景而异。在考验场景中,咱们更关注统共这个词集群(包括加快卡、存储、采集、通讯等)的合座愚弄效率。在推理场景中,结尾用户更关注蔓延,比如是否能在几毫秒内得到反应,除了第一个 token 的生成蔓延,后续每个 token 之间的间隔期间亦然进攻的目的;算力提供方则更关注合座蒙胧量,比如 1000 张加快卡每天能处理几许肯求,是每天能反应 100 万个肯求,照旧 1000 万个肯求。
一个正常被冷漠但很进攻的目的是本钱,特等是每个 token 的处理本钱。公共总说追求极致性能,但当咱们将本钱敛迹也纳入磋商时,对系统蒙胧量和处理蔓延的磋议会更有现实意旨。从永久来看,显贵裁减推理本钱关于扩充 AI 应用至关进攻。
中好意思硬件各异下的算力解围
系统软件双向适配
机器之心:由于中好意思之间的硬件各异,公共很关注软件栈层面是否会出当代际分叉,致使发展出不同的科技树?
翟季冬:中国确乎在系统软件方面濒临着不同的想考标的。在好意思国和欧洲,AI 基础设檀越要以 NVIDIA GPU 为主,但在中国,很难取得起先进的 NVIDIA 算力。
NVIDIA GPU 之是以受接待,很猛进程上归功于其锻真金不怕火的生态系统。我印象很深远的是,从我念书时期驱动,NVIDIA 就与清华等高校张开配合,探索如何更好地在他们的硬件上齐备加快。他们面前的软件栈亦然经过多年积存形成的。比较之下,中国的 AI 芯片公司大多始于最近几年,发展历程不到十年。
咱们还有很长的路要走,无论是在底层编译器优化芯片算力,照旧在多卡互连的高效通讯协同方面。中国濒临双重挑战:一方面需要补皆短板,提高芯片易用性;另一方面由于获取不到起先进的芯片制程工艺,可能会过时外洋一到两代。这使得软件与硬件的协同优化在中国显得更为进攻,咱们需要挖掘统共可能的优化空间。
机器之心:从您的角度看,咱们应该用什么样的想路来搪塞 NVIDIA 确立的软件生态壁垒?
翟季冬:算作其后者,咱们开首要学习他们在算子库、编程言语和编译器方面的先进理念。在不违犯学问产权的前提下,咱们不错模仿这些后果。但也不可实足照搬,而是要有我方的想考。举例,在工艺制程过时的情况下,咱们不错在软件栈方面作念些什么?针对与 NVIDIA 不同的架构特色,咱们是否不错有我方的创新?
要是好像把从应用侧到系统软件,再到自主研制芯片的整条旅途买通,我折服咱们能找到一条得当中国现实环境的可行发展门路。
从学术角度来说,咱们不错探索开发更好的边界特定编程言语,让用户编写高层代码时能自动生成更高效的齐备。这里还有许多不错探索的空间,但要齐备买卖落地需要期间。
机器之心:说到大模子算力优化,为什么还莫得芯片厂商推出 Transformer 专用芯片?您如何看待这个趋势?
翟季冬:我以为面前莫得并不代表将来莫得,可能有些公司正在这个方进取神勇。从芯片遐想到流片再到封装,统共这个词流程本钱相当高,必须要有糜掷大的市集空间才能撑抓这种特定架构。
要是大模子最终确乎会以 Transformer 架构为主,那么咱们确乎不错遐想一款实足针对 Transformer 的专用芯片。但面前存在几个主要磋商:开首,AI 模子发展相当速即,咱们无法详情 Transformer 架构是否会一直保抓主流地位,可能还会出现新的非 Transformer 架构。其次,Transformer 自己也在持续演化,比如 MoE 这么的稀疏激活模子,以及多模态 MoT(Mixture-of-Transformers)的稀疏脾气,这些脾气很难在芯片层面径直神志。
回来最近这一波 AI 发展,大致从 2012 年于今,率先以为主,一些芯片公司特意为卷积遐想了 ASIC 芯片。但到了 2017 年后,Transformer 架构缓缓兴起,与卷积有很大的不同,导致之前针对卷积优化的 ASIC 芯片难以适合新的架构。
值得一提的是,在此流程中 NVIDIA 天然也在其芯片架构中添加了多样新的硬件模块,但合座架构保抓相对肃穆,通过系统软件来适合应用的变化,比如他们的 Tensor Core 针对矩阵乘法进行优化,而不是特意为 Transformer 的某个组件(如 Attention)遐想特定架构。
机器之心:NVIDIA 的作念法能给咱们带来什么启示?
翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的遐想想路,本色上是把具体的算法用电路去齐备,但遐想的关节在于如何把这个具体的算法拆解成合适的、通用的基本硬件单位,以便多样应用都能通过这些基本单位来齐备。举例,NVIDIA 的 Tensor Core 即是将多样操作都移动成矩阵乘法,这种映射方式相对更纯真。
拆解的中枢在于粒度要恰到平正:粒渡过大,微型应用难以灵验愚弄硬件资源,形成浪费且性能下落;粒渡过小,则会加多数据搬运和移动支拨,裁减合座效率,并加多硬件和软件的复杂度。这是一个需要衡量的遐想遴荐。
机器之心:面前许多公司一方面投资现存基础方法购买种种计算卡,一方面也在与高校配合并投资创业公司,以搪塞非 Transformer 架构带来的挑战。从系统软件层面来看,这种布局能在多猛进程上搪塞下一代技巧的冲击?
翟季冬:系统软件的本色是将表层应用门径更好地映射到底层硬件。一方面要关注应用层面的变化,比如面前多模态模子越来越进攻,咱们就需要想考多模态带来的新模式和负载特征,同期要关注底层架构的演进,无论是 NVIDIA GPU 照旧国产加快卡,都可能会加多新的计算单位或访存单位,咱们需要想考如何更好地愚弄这些硬件脾气。
系统软件的中枢任务是密切关注上基层的变化,通过中间层的合理遐想将两头匹配起来,让硬件效率解析到极致。关于正在探索的新式模子,咱们需要分析它们的负载特征,磋议如何更好地映射到底层芯片以充分愚弄硬件资源。
樊振东的突然发声已经让人感到十分意外,他的恩师、前国乒男队临时负责人吴敬平公开转发弟子微博并力挺,在外界看来,似乎小胖受到某种势力的打压和排挤。要知道,刘国梁在离开国乒那段时间里,安排铁杆老部下吴敬平临时负责国乒男队,但随着老刘正式回归,吴敬平以及刘国正等当时没有公开站队刘国梁的名帅纷纷离开,也被外界认为是有一些特殊的原因。
从提前布局的角度来说,系统软件要作念好新兴应用负载的分析。同期,当新的芯片架构出当前,系统软件也要实时作念出相应的改良和适配。这种双向的适配才气,是系统软件搪塞技巧变革的关节。
万卡集群时间的算力优化
机器之心:您参与了多个基座大模子的考验,在使用万卡级集群方面有第一手素养,能否分享一下在这种超大限制考验中遭遇的主要技巧挑战?
翟季冬:2021 年,咱们与北京智源磋议院等机构配合,使用新一代神威超算系统进行一个基座大模子的考验,不错把它相识为一个 10 万卡的集群。在这个流程中,我体会到大模子考验主要有几方面的挑战。
开首是并行策略的遴荐。因为模子很大,用 10 万台机器去作念,就要把模子进行切分,就像把一块豆腐要切成许多块,不错切成方块,也不错切成细条,旨趣是一样的。要把一个大模子分到 10 万台机器上,也有许多切分方式。用术语来讲,比如说罕有据并行、模子并行、活水线并行、序列并行等等,每个并行策略都有我方的优污点。在 10 万台机器上,如何组合这些并行策略,自己即是很大的挑战。况兼 10 万限制的集群,没观点像单卡那样反复测试多样策略,一定要把策略分析了了了才去跑,因为一次的测试本钱就很高,也不允许作念太屡次尝试。
第二个挑战是通讯问题。10万台机器需要通过高速采集互连,但不同的机器组网方式不一样,采集的拓扑是不一样的。大模子考验时有许多通讯函数,这些通讯函数如何跟底层的采集拓扑高效映射是一大挑战。咱们发现,不同的通讯策略可能导致 1-2 倍的性能各异。
第三个挑战是容错机制。当机器限制增大,统共这个词系统平均无故障期间就会相当小。基座模子考验正常需要几周详一两个月。咱们必须遐想轻量级的容错机制,在硬件出现故障时好像快速替换出错的卡并连续考验,同期将这个支拨降得越低越好。
终末,单卡性能也至关进攻。在关注万卡、10 万卡这类合座系统的同期,也要把单卡效率打得特等高,比如通过编译优化等策略,确保每张卡都能解析出极致性能。
机器之心:在提高算力愚弄率方面,咱们应该关注哪些点?
翟季冬:大模子的人命周期包含多个阶段,每个阶段对算力的需求都不疏导。咱们刚才谈了预考验,但在预考验模子完成后,还有一个很进攻的阶段即是后考验(post training)。以 OpenAI o1/o3 为代表的后考验技巧,为统共这个词考验流程带来了新的挑战。
后考验包括生成阶段、推理阶段和微调阶段,每个阶段的负载特色都不同,最优的并行策略也会不同。需要注意的是,不可约略地追求每个阶段的局部最优,因为阶段之间的切换也会产生支拨。咱们要从统共这个词 pipeline 的角度来磋商优化策略。后考验还濒临着负载不平衡的问题,需要探索如何灵验重复不同阶段以提高资源愚弄率。
在微调阶段,客户经常会用我方的独到数据对基座模子进行养息。由于硬件资源可能有限,这时需要磋商一些特殊的策略,比如 offloading,也即当 GPU 内存不实时,将部分参数存储在 CPU 端。微调自己算作一个考验流程,对并行策略也有很高条目。
推理阶段的优化濒临更多挑战:
KV Cache 不停:推理流程会产生大批中间收尾(KV Cache)用于裁减计算量。如何不停这些数据很关节,比如不错选择页面式不停,但页面大小是固定照旧凭据负载特征动态养息,都需要仔细遐想。多卡协同:当模子较大时需要多 GPU 配合,比如在 8 个 GPU 上进行大模子推理,如何优化卡间并行亦然一大挑战。算法优化:还不错从量化等角度进行优化,充分解析底层算力性能。
总的来说,从预考验到后考验,再到微调处推理,每个阶段对算力的条目都不同,咱们需要针对这些特色进行深入的优化。
机器之心:要是要缔造百万卡集群,是遴荐多家厂商的卡,照旧只遴荐少数厂商乃至单唯一家的卡更好?
翟季冬:从不停和使用效率的角度来说,遴荐单一类型的加快卡无疑是最浅易的。但践诺情况经常愈加复杂。比如说在好意思国,企业可能先购入 1000 张 A100,其后又添置 1000 张 H100。不同代际的加快卡存在性能各异,整合使用时就会带来系统优化的挑战,况兼这个问题在考验和推理场景下的解析也不尽疏导。
从系统软件角度看,这践诺上是芯片碎屑化的挑战。我面前正在讲求一个技俩,面向异构芯片的统一编程和编译优化。核热情念是,天然底层使用不同的 AI 芯片,但在编程模子和编译优化层面要尽可能统一。咱们但愿归拢套门径能在不同加快卡上都解析出高效性能,同期裁减不同加快卡间的移植支拨。
许多东说念主都说过,但愿算力像水电一样成为基础方法。用电时咱们并不需要关注是风力发电照旧煤炭发电。要齐备这个目的,践诺上有很长的路要走,咱们需要作念好中间层的软件职责。此外,还要确立完善的算力度量表率,比如如何计算算力使用量,如何计价,这些都需要表率化。
在现阶段,咱们照旧需要关注底层硬件的具体情况。但改日的发展标的是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需要调用约略的 API 就能浅易使用多样算力资源,不消关注底层细节。这可能是一个终极的发展标的。
机器之心:那咱们把期间拉近一些,改日 1-3 年内,系统软件优化方面可能会看到哪些显贵趋势或变化?
翟季冬:面前我国各省市确立了许多智算中心,以国产算力为主。咱们不雅察到一个形式是,尽管应用开发者无边枯竭算力资源,但许多国产算力中心却存在闲置形式。用户更倾向于使用 NVIDIA 这么开箱即用的处置决策。
这种景色其实带来了进攻机遇:如何执意劲的算力需求与现存的国产算力灵验对接?咱们的目的是让国产算力达到不异的易用性,使用户感受不到各异。这不仅能促进东说念主工智能在中国百行万企的发展,也能带动从芯片到软件再到应用的合座发展。
为此,咱们实验室孵化了一家公司「清程极智」,死力于为国产闲置算力提供更友好的接口,匡助行业用户浅易地整合种种国产算力资源。
从技巧层面来说,这不单是是优化算子库那么约略。系统软件的齐全缔造应该包括编程言语、编译器、通讯库、并行计算、编程框架,这些标的都需要进入。就像木桶效应,任何一个短板都可能影响芯片的合座使用效果。要充分解析国产算力的性能,咱们需要在这些标的全面发力,才能真实把算力这个标的作念好。
嘉宾简介
翟季冬,清华大学计算机系长聘确认,博士生导师,高性能计算磋议所长处。青海大学计算机技巧与应用学院院长。CCF高性能计算专委副主任、CCF凸起会员。清程极智首席科学家。
主要磋议边界包括并行计算、编程模子与编译优化。在并行计算与系统边界顶级会议和期刊发表论文 100 余篇,出书专著一部。磋议后果获 IEEE TPDS 2021 最好论文奖、IEEE CLUSTER 2021 最好论文奖、ACM ICS 2021 最勤学生论文奖等。担任清华大学学生超算团队考验,指导的团队 15 次取得宇宙冠军。获莳植部科技特出一等奖、中国计算机学会天然科学一等奖、CCF-IEEE CS 后生科学家奖、高校计算机专科优秀教师奖励野心。国度凸起后生科学基金取得者。