当英伟达的CUDA关上门:中国芯片的挑战与突围

近日,英伟达在软件方面作出了一项重要决策:其CUDA技术将不再允许第三方软件公司开发兼容CUDA的产品。这意味着CUDA将不支持除英伟达之外的其他硬件平台。


这一策略直接影响了英伟达的竞争对手,包括谷歌的TPU和AMD的GPU。不仅如此,这也波及到了中国市场的多家芯片生产商,如摩尔线程、寒武纪、壁仞以及华为的昇腾芯片。

英伟达在人工智能领域的主导地位无可争议。了解CUDA的人都会意识到,我们似乎正在重蹈历史的覆辙。

首先,让我们简单了解一下什么是CUDA。

在传统计算机时代,CPU是计算的核心,配备了操作系统(如Linux或Windows)和常见的编程语言(如C和C++)。编写的程序运行在CPU上。然而,随着并行科学计算的发展,尤其是进入人工智能时代,大规模数据需要进行重复的并行计算,例如对百万级数组进行乘法运算。这类计算如果放在CPU上执行,只能串行处理,而在英伟达的GPU上,则能够利用其数十万甚至上百万的计算单元并行处理。

GPU,即图形处理器,最初设计用于加速图形计算,将图像分解为基本形状(如三角形)进行处理。但它也能够执行并行计算,如神经网络运算。对大多数程序员来说,理解如何让程序运行在GPU上而非CPU上并不直观。这就是CUDA的用武之地:提供一个平台,通过一系列库函数、接口和框架,允许开发者使用熟悉的C语言和C++编写并行计算程序,并将其转化为GPU能够理解的指令。

CUDA是一个关键的翻译层,让工程师能够用自己熟悉的编程语言编写并行计算代码,进而被GPU以并行的方式执行。CUDA的出现极大地促进了图形设计、游戏开发和人工智能模型训练等领域的发展,让GPU的潜力得到了充分发挥。

今天,由于英伟达GPU在人工智能计算中的强大性能和广泛应用,开发人工智能模型不可避免地需要依赖一定的软件平台,这些平台往往底层调用CUDAAPI。这就形成了一个完整的生态系统,让模型运行依赖于CUDA,从而也就绑定了英伟达的GPU。

人工通用智能(AGI)未来的大趋势不可逆。在商业对商业(B2B)的场景中,准确性尚未达到商用水平;而在商业对消费者(B2C)的场景中,缺乏足够的用户规模使得边际成本难以降低。

在这样的背景下,算力成为了一切的基础,即芯片的性能。英伟达的GPU因其高昂的价格和采购限制成为了一个难题。

那么,面对CUDA的限制,我们是否能找到国产芯片作为替代方案呢?目前市面上已有如摩尔线程、寒武纪、壁仞和华为的昇腾芯片等国产选择。

然而,由于CUDA对第三方的限制,这些国产芯片似乎在实际应用中显得力不从心。

对于应用开发者而言,为了适配不同的硬件平台,如英伟达、摩尔线程、寒武纪、壁仞、华为的昇腾芯片,他们需要进行大量的定制开发工作。即便是连续997,也难以满足这些需求。

芯片制造商是否应该开发自己的系统,像素级复制CUDA?

英伟达笑了,哥们花了20年还没走出泥潭,有钱有人继续,欢迎加入!

国产操作系统听了,也笑了,因为国产操作系统可能已经找到了自己的路径,通过使用Linux核心和兼容WindowsAPI,让所有Windows应用软件都能在国产操作系统上运行,这为软件兼容性提供了一个范例。

但是人工智能模型,尤其是基于LLama2和运行在PyTorch上的模型,仍然依赖于CUDA。在没有英伟达芯片支持的情况下,国产芯片似乎难以承担起这一任务。

解决方案可能在于分开考虑模型训练和推理两个阶段。推理阶段的算力需求远低于训练阶段,而未来推理芯片的需求量和算力消耗将会非常巨大。这意味着芯片制造商可以专注于推理芯片的开发,而将训练阶段的需求仍旧依赖于英伟达。

芯片厂商做推理芯片,训练用英伟达。

然后明修栈道、暗度陈仓,围绕着人工智能训练和推理两个框架。对这两个框架进行修改,摆脱对CUDA的依赖!

最终,这需要大佬的介入,来建立一套国内的标准接口,形成独立的生态系统。

毕竟,国内大型科技公司(如BAT)各自为政,内斗不断,这种分散的势力可能导致标准化努力的失败。

只有真正的协作和标准化才能推动国产技术的发展,打破当前的局面,为未来的创新铺平道路。

金庸老爷子曾经比喻:真正的高手往往不在于外在的华丽技巧,而在于深厚的内功和随机应变的能力。

这一理念同样适用于技术和商业世界,最终获得成功和认可的,往往是那些能够在关键时刻为社会、为人民带来实质性贡献的企业和技术。正如金庸所描绘的,真正的大侠,并非是靠招式的华丽或是短暂的辉煌,而是依靠对“为国为民”的坚持和实践。

期待侠之大者出现!

发布于 2025-02-28
179
目录

    推荐阅读