英伟达挑战者？专访Graphcore总裁、大中华区总经理卢涛：IPU的稀疏性要强于GPU丨WAIC 2023

每经记者：朱成祥每经编辑：梁枭

7月6日至7月8日，2023世界人工智能大会在上海举办。7月6日下午，Graphcore（中文名“拟未”）总裁、大中华区总经理卢涛接受了《每日经济新闻》记者专访。

本届大会评选出九大“镇馆之宝”，拟未“Graphcore C600 IPU处理器PCIe卡”就位列其中。据悉，Graphcore C600 IPU处理器PCIe卡主打推理，兼做训练，可以支持各种主流的AI应用，在搜索和推荐等业务上具有一定优势。它在提供低延时、高吞吐量的同时不损失精度，帮助AI开发人员解决“精度与速度难两全”的痛点。

(资料图)

Graphcore总裁、大中华区总经理卢涛

图片来源：受访者供图

值得一提的是，C600在提供强大的算力、易用性和灵活性的同时，还实现了低时延和低功耗，在运行典型工作负载时的散热设计功耗为185瓦，可为运维人员减少数据中心运营开支。

IPU与GPU有何差异？

目前，业界普遍使用英伟达的GPGPU作为算力芯片，拟未的IPU和英伟达的GPGPU相比，有何差异呢？

卢涛表示：“首先从设计理念上，就和（英伟达）挺不一样的。一是计算架构不一样，二是存储架构不一样。我们是综合了非常多个核的处理器，比如C600，每个IPU具有1472个处理核心，能够并行运行8832个独立程序线程。而英伟达GPU的SM Core（stream multiprocessor核心）大概是100多个，不同产品配置不一样。其所谓的CUDA Core和Tensor Core其实是挂在SM上面的加速器、运算器。CUDA Core只是一个运算单元。”

图片来源：每经记者朱成祥摄

存储架构方面，卢涛表示：“无论是英伟达的GPU，还是谷歌的TPU，都是两级内存。一级是（显示）芯片里面有一个四五十兆的内存，外面挂着HBM或者显存。我们IPU，在芯片里面就有900兆的片上SRAM存储，并且是分布式的。之前我们所说的1472个处理核心，跟片上SRAM存储是耦合在一起的。”

IPU这种架构有何好处呢？卢涛称：“计算（核心）跟存储耦合，非常适合做稀疏化，以及做一些高维运算。跟GPU对比，如果对稀疏性要求比较高、高维方面要求比较高，我们的优势会更大。如果是矩阵运算，我们就差不多或者是优势小一些。”

软件生态：不兼容CUDA，为客户提供更优解

从上述介绍来看，C600是主打推理，兼做训练。那么拟未本身的芯片产品，主要应用于训练端还是用于推理端呢？

卢涛表示：“我们是训练、推理一体的，只不过针对系统层面会有不一样的要求。比如说训练，要做大规模的扩展。如训练集群，需要一千个或者几千个处理器连接在一起。推理不需要那么大规模的互联。训练和推理，我们处理器本身没有特别大的区别，更多是从系统层面体现。”

值得一提的是，英伟达不仅强在硬件，其软件生态CUDA更是难以替代。那么，拟未的IPU能兼容CUDA吗？

卢涛表示：“我们不兼容CUDA，这是一个非常有意思的问题，属于哲学层面上的问题。如果你是客户，询问是否CUDA兼容，本质是想不花任何功夫，或者花很少的精力，把软件、把应用在处理器上用起来。”

他进一步分析称：“这里面就有两个命题，一是CUDA兼容，但CUDA是英伟达自己的软件生态，是针对英伟达GPU架构实现的。API你能看得到，但底层各种优化，都是针对其GPU体系结构优化的，你根本不知道怎么做。二是CUDA不兼容，这就需要尽量减少客户迁移的成本，让客户在极端情况下，不需要做什么就能迁移，或者花比较少的工作量就能迁移。”

封面图片来源：受访者供图

每日经济新闻

关键词：