用户,您好,欢迎您进入NSTL重点领域信息门户! 登录 | 注册  帮助中心
重点领域信息门户
您当前的位置: 首页 > [2019年第2期]情报条目详细信息

编译内容

编译服务: 集成电路 编译者: shenxiang 编译时间: Jan 31, 2019 浏 览 量: 9

在《芯片巨头们2019年的AI芯片之争会如何?》一文中作者Karl Freund详细介绍了巨头公司们的AI芯片。此外,还有数十家硅谷创业公司和中国独角兽公司估值超过10亿美元,并且也参与了AI芯片的竞争。在本文中,作者将介绍全球的最杰出,或至少是最受关注的AI芯片创业公司。

Wave Computing

Wave Computing在2018取得了不少进展,推出其第一个DataFlow处理单元,收购MIPS,创建MIPS Open,并将首批系统交付给少数客户。虽然Wave架构有一些非常有趣的功能,但我们更期待用户的大规模真实体验反馈。

Wave不是插入到服务器的加速器,它是用于图形计算的独立处理器。这种方法有利有弊。从积极的方面看,Wave不会受到GPU等加速器面临的内存瓶颈影响。从消极方面来说,安装Wave设备将是新的升级,需要完全替换传统的X86服务器,也让其成为所有服务器制造商的竞争对手。

我不认为Wave能从某个点击败NVIDIA,但该架构的设计的非常好,该公司已经表示它很快就会有客户的反馈。

Graphcore

Graphcore是一家资金雄厚(融资3.1亿美元,目前估值为17亿美元)的英国独角兽创业公司,拥有全球化的团队。它正在构建一种新型的图形处理器架构,其内存与其逻辑单元位于同一芯片上,这应该能够实现更高的性能。该团队产品的发布时间暂不明确,不过他们去年四月表示“几乎准备好发布”了,12月的最新信息表明它将很快开始生产。

Graphcore的投资者名单令人印象深刻,包括红杉资本、宝马、微软、博世和戴尔科技。

我了解了该公司的架构,它非常令人印象深刻。从边缘设备扩展到用于数据中心的训练和推理的“Colossus”双芯片封装。在最近的NeurIPS活动中,Graphcore展示了其RackScale IPU Pod,它在一个32台服务器的机架中提供超过16 petaflops的算力。虽然该公司经常声称它将提供比同类最好GPU强100倍的性能。

Graphcore表示,4“Colossus”GC2(8芯片)服务器可提供500 TFlops(每秒数万亿次操作)的混合精度性能。单个NVIDIA V100可提供125 TFlops,因此理论上4 个V100就可提供与其相同的性能。

与往常一样,细节更能发现差别,V100峰值性能仅在重构代码执行TensorCore的4x4矩阵乘法时才可用,这是Graphcore架构巧妙避免的限制。更不用说V100消耗了300瓦的电能和大量现金这一事实。

此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,可以得到超出TFlops基准所认可的优秀性能。在一些神经网络中,如Generative Adversarial Networks,内存是瓶颈。

再次强调,我们将不得不等待真实的用户用实际应用程序来评估此体系结构。尽管如此,Graphcore的投资者名单、专家名单和台天价估值告诉我,这可能是一件好事。

Habana Labs

Habana Labs是一家以色列创业公司,去年9月在第一次AI硬件峰会上宣布它已经准备好推出其首款用于推理的芯片,其创纪录的性能用于卷积神经网络图像处理。结果显示在Resnet50图像分类数据库中该处理器每秒分类15,000张图像,比NVIDIA的T4高出约50%,功耗仅为100瓦。

在2018年12月,Habana Labs的最新一轮融资由英特尔风险投资(Intel Venture Capital)领投,WRV Capital,Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。

据悉,Habana Labs新的融资将部分用于流片其名为“Gaudi“的第二款芯片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。

其它创业公司

我知道世界上有超过40家公司在为人工智能设计训练和推理芯片。我发现大多数公司都在进行简单的FMA(浮点乘法累加)和混合精度数学(整型8位和浮点16位和32位)。对此我不会感到惊讶,因为这种方法相对容易实现并且会获得一些成果,但它不会为像NVIDIA,英特尔以及少数初创公司做出不一样的架构提供持久的架构优势。

  
提供服务
导出本资源