pc28

加拿大pc28预测在线网站 “DeepSeek以至绕过了CUDA”,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?

发布日期:2024-03-31 01:07    点击次数:66

源头:量子位(ID: QbitAI)作家梦晨 西风加拿大pc28预测在线网站

英伟达刚刚从DeepSeek-R1激励的缓给力来,又濒临新的压力?

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek以至绕过了CUDA,使用更底层的编程谈话作念优化。

这一次是DeepSeek-V3论文中的更多细节,被东说念主挖掘出来。

报道称,中国队计划于明年1月中旬在海口组织为期10天的冬训,强化球员体能储备的同时,还将进行定位球攻防专项训练。按照伊万的构想,每一期集训都会出现几个新面孔,2025年首次集训大概也不例外。

或许是在陪自己的子女练球,因此王大雷在社媒配文写道:“陪练也得稍微会一点!”

来自Mirae Asset Securities Research(韩国往时钞票证券)的分析称,V3的硬件着力之是以能比Meta等进步10倍,不错追思为“他们从新运行重建了一切”。

在使用的H800 GPU考研DeepSeek-V3时,他们针对我方的需求把132个流式多科罚器(SMs)中的20个修改成雅致工作器间的通讯,而不是蓄意任务。

变相绕过了硬件对通讯速率的适度。

这种操作是用英伟达的PTX(Parallel Thread Execution)谈话已毕的,而不是CUDA。

PTX在接近汇编谈话的层级运行,允许进行细粒度的优化,如寄存器分拨和Thread/Warp级别的转机。

这种编程相当复杂且难以钦慕加拿大pc28预测在线网站,是以行业通用的作念法是使用CUDA这么的高等编程谈话。

换句话说,他们把优化作念到了极致。

有网友暗意,淌若有一群东说念主嫌CUDA太慢而使用PTX,那一定是前量化走动员。

一位亚马逊工程师提议灵魂非难:CUDA是否如故护城河?这种顶尖实际室不错灵验诓骗任何GPU。

以至有网友运行畅思,淌若“新源神”DeepSeek开源了一个CUDA替代决策……

那么事情是否真会如斯?

DeepSeek果然绕过了CUDA?

最初要明确的是,PTX仍然是英伟达GPU架构中的技巧,它是CUDA编程模子中的中间暗意,用于勾搭CUDA高等谈话代码和GPU底层硬件指示。

PTX肖似汇编谈话,代码约略长这么:

在实质编译经过中,CUDA代码最初被编译为PTX代码,PTX代码再被编译为目的GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高等编程接口和用具链的作用,不错简化缔造者的使命。而PTX看成中间层,充任高等谈话和底层硬件之间的桥梁。

另外,这种两步编译经过也使得CUDA才能具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种平直编写PTX代码的作念法,最初不仅相当复杂,也很难移植到不同型号的GPU。

有从业者暗意,针对H100优化的代码移动到其他型号上可能后果打扣头,也可能根柢不使命了。

是以说,DeepSeek作念了PTX级别的优化不虞味着都备脱离了CUDA生态,但如实代表他们有优化其他GPU的才能。

事实上,咱们也能看到DeekSeek也曾与AMD、华为等团队缜密协作,第一时辰提供了对其他硬件生态的赈济。

One More Thing

还有东说念主提议,如斯一来,让AI擅长编写汇编谈话是AI自我校正的一个主义。

咱们不知说念DeepSeek里面是否使用AI接济编写了PTX代码——

关联词如实刚刚见证DeepSeek-R1编写的代码显贵普及大模子推理框架的运行速率。

Llama.cpp神气中的一个新PR苦求,使用SIMD指示(允许一条指示同期科罚多个数据)显贵普及WebAssembly在特定点积函数上的运行速率,提交者暗意:

这个PR中的99%的代码都是由DeekSeek-R1编写的。我独一作念的即是缔造测试和编写教导(经过一些尝试和造作)。 是的,这个PR旨在讲明大模子咫尺能够编写精采的底层代码,以至能够优化我方的代码。

llama.cpp神气的首创东说念主检查了这段代码后暗意“比预期的更爆炸”。

参考相接:[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead[2]https://x.com/bookwormengr/status/1883355712191123666[3]https://tinkerd.net/blog/machine-learning/cuda-basics/[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html[5]https://x.com/ggerganov/status/1883888097185927311

2025,信心同业,好意思好可期





Powered by pc28 @2013-2022 RSS地图 HTML地图