市场分析：AI如何再次点燃人们对硬件的兴趣( 三 ) 长期以来

文章图片
Blaize的GraphStreamingProcessor使用图形数据结构来支持神经网络处理。图片：Blaize
Blaize的架构基于图形数据结构，在这种架构中，对象之间的关系呈现为相互连接的节点和边缘。 Blaize公司联合创始人、首席软件架构师ValCook说：“每个机器学习框架都使用了图形的概念，我们在整个芯片设计过程中保持相同的原则。我们可以执行整个图形，其中包括CMM ，但是也可以包括自定义的节点。我们可以在这些图形中加速任何并行计算。 ”
Blaize表示，这种基于图形的架构解决了GPU和CPU在容量上的一些局限性，可以更灵活地适用于不同类型的AI任务，还让开发者把更多处理任务迁移到边缘以实现更好的推理性能。 Blaize公司软件开发副总裁DmitryZakharchenko表示：“如果你摄像头设备上对80%的处理任务进行预处理，那么你就可以节省下大量的时间和成本。 ”
Blaize是瞄准了边缘应用的少数几家初创公司之一，在这些应用中，智能性被移动到更靠近数据的位置以实现瞬间决策。大多数都是针对推理场景（AI模型的现场部署）的，而不是计算量更大的训练任务。
AxeleraAIB.V.正在开发一种芯片，芯片使用内存计算来降低延迟和对外部存储设备的需求。该公司营销和传播经理MerlijnLinschooten表示：“我们的AI平台将提供灵活性，能够在运行多个神经网络的同时保持高精度。 ”
Kalray公司将他们的数据处理单元系列称为“大规模并行处理器阵列” ，具有可扩展的80核处理器，能够并行执行数十项任务。该公司首席执行官EricBaissus在接受电子邮件采访时表示：“Kalray的关键创新，是把张量协同处理器紧密集成到每个处理元素中，支持元素之间直接交换张量数据以避免内存带宽瓶颈，可以实现高效的AI应用加速，因为预处理和后处理都是在相同的处理元素上执行的。 ”
总部位于以色列特拉维夫的HailoTechnologies公司，专注于使用一种缩略图大小的芯片组对深度学习模型进行推理，据称该芯片组每秒可执行26万亿次操作，功耗不到3瓦。为了做到这一点， Hailo将用于训练深度学习模型的每个网络层分解为所需的计算元素，并将这些元素全部整合到一个专为深度学习开发的芯片上。
Hailo公司业务开发副总裁LiranBar表示，使用板载内存进一步降低了开销。 “Hailo的整个网络都是在芯片内部的，我们没有外部存储器， ”这意味着芯片可以体积更小，功耗更低。 Hailo表示，这种芯片可以近乎实时地针对高清图片运行深度学习模型，从而让一台设备就能对四个车道上的车辆进行自动车牌识别。
游戏规则改写者
还有一些初创公司正在酝酿更多的创新计划，重新定义训练和运行AI模型的整个平台。

文章图片
Graphcore的3-D芯片设计把近1500个并行处理核心封装到一个芯片上。图片来源：Graphcore
Graphcore表示， Graphcore的AI处理器针对机器学习进行了优化，每秒可管理多达350万亿次处理操作，具有近9000个并发线程和900MB的处理器内存Graphcore的Bow-2000IPUMachine集成计算系统据称每秒可以实现1.4petaflops的计算性能。
不同之处在于Graphcore的三维堆叠晶圆设计，使其能够在芯片中封装近1500个并行处理核心。 Graphcore公司首席执行官NigelToon接受电子邮件采访时说：“所有这些都能够运行完全不同的操作，这让Graphcore与其他主流GPU架构有所区分，后者更适合于运行大型数据块操作。 ”