找回密码

人工智能芯片架构竞争转移到了边缘

人工智能(AI)的爆炸性应用正在开启半导体设备的新时代,这将带来许多新的机遇,但也带来许多挑战。各个公司正在努力争取使用各种芯片架构作为首选武器,以获取人工智能能力。

具有端到端数据处理能力的公司

随着机器学习应用开始出现在端点设备和物联网的网络边缘设备中,使AI(人工智能)成为可能的加速器可能看起来更像是FPGA和SoC模块,而不是来自英特尔或Nvidia的当前数据中心绑定芯片组件。

人工智能和机器学习需要功能强大的芯片来计算大数据集(训练)的答案(推理)。大多数AI(人工智能)芯片 – 包括培训和推理 – 都是为数据中心开发的。然而,这种趋势很快就会发生变化。该处理的很大一部分将发生在边缘,网络边缘中或附近的传感器和传感器阵列。

关键字数据处理流程

几乎可以肯定的是,训练将留在云端,因为大量资源的最有效交付来自Nvidia GPU,后者占据了这一部分的市场。虽然数据中心可能容纳训练部分 – 其庞大的数据集 – 但推断可能最终会在边缘。市场预测似乎在这一点上达成一致。

根据Tractica的研究主管Aditya Kaul以及其边缘设备AI报告的作者:负责推理的硬件市场是新的,但变化很快。 “数据中心有一些机会,并将继续存在。他们[基于云的数据中心AI(人工智能)芯片市场]将继续增长。但它处于边缘,在推理中,事情变得有趣,“考尔说。他说,至少有70家专业人工智能公司正在研究某种与芯片相关的人工智能技术。

“在边缘,智能手机,机器人,无人机,相机,安全摄像头等所有设备都需要进行某种AI(人工智能)处理才能让人感觉有趣,”考尔说。

市场领域深度学习芯片组的收入。来源:Tractica。

到2025年,基于云的AI芯片组将获得146亿美元的收入,而基于边缘的AI芯片组将带来516亿美元的收入 – 比数据中心大3.5倍,主要由手机,智能扬声器,无人机,AR / VR耳机和其他都需要AI处理的设备组成。

虽然Nvidia和英特尔现在可能主导基于数据中心的机器学习应用市场,谁将拥有远离数据中心的边缘计算AI市场?那些芯片会是什么样子呢?

AI边缘芯片需要做什么

Semico Research的ASIC和SoC分析师Rich Wawrzyniak表示,边缘计算,物联网和消费者端点设备将需要在功耗,价格和芯片尺寸上以相对较低的成本进行高性能推理处理。这很困难,特别是因为边缘设备要处理的大多数数据将是大块的视频或音频数据。

“有很多数据,但如果你有监控摄像头,它必须能够实时识别坏人,不用将图片发送到云端,等待看是否有人能认出他,”Wawrzyniak说。

将边缘设备添加ML级智能的一些愿望来自于需要将这些设备上的数据保密,或者降低将其发送到云的成本。然而,大多数需求来自于希望设备位于边缘计算设施或客户手中的用户,而不是简单地收集数据并定期将其发送到云端,以便他们可以直接与公司自己的数据或其他客户和路人进行实时交互。

人工智能数据收集和训练管道

恩智浦半导体人工智能技术负责人Markus Levy表示,“客户意识到他们不希望将大量处理工作转移到云端,因此他们认为边缘是他们真正的目标。” “现在你可以在边缘做AI,你可以将物联网变成具有真正能力的东西。我们看到消费者物联网和工业物联网之间的增长速度非常快,除嵌入式外这些是我们最大的增长领域。“

据IDC分析师Shane Rau称,IDC今年接受调查的商业技术客户称,他们肯定将机器学习转移到边缘设备上,主要用于汽车,智能家居,视频监控摄像头和智能手机,其客户调查将这四种设备命名为ML的候选应用。

AI边缘的架构趋势

边缘计算的要求范围可能包括数十亿的工业和消费设备,因此任何单一架构都不可能满足所有这些要求。

可以在微控制器和相对低端的芯片上运行推理模型,但是大多数机器学习功能需要从基于FPGA,ASIC和其他SoC配置的一长串可选CPU插件中获得提升。恩智浦的Levy表示,除了GPU,CPU以及偶尔由Google的张量处理单元这样的特殊用途ASICS组合之外,大多数帮助都以加速器的形式出现。这些FPGA,SoC,ASIC和其他专用芯片旨在帮助资源受限的基于x86的设备通过一个接一个的分析标准处理大量图像或音频数据,以便应用程序可以正确计算每个加权值。

英特尔和Nvidia已经向边缘AI市场发起冲击。 Kaul说,像Nvidia的Jetson这样的功能,一个7.5W功率预算的GPU模块平台,是Nvidia更典型的70W的一小部分,但对于不超过5W的边缘应用来说这个功率仍太高了 。

“有很多知识产权公司正在为神经网络加速发展,因此有足够的选择使加速器开始成为边缘设备推理的必要条件,”Levy说。

按类别划分的AI边缘设备的出货量。来源:Tractica

但是,为潜在的数十亿设备增加ML加速和支持将需要更多的可定制性,更低的成本和规格,更专门针对资源受限设备上的ML应用的需求而定制 – 这意味着如果它能够成功,整个市场将需要更好的处理器。

神经推理需要数万亿次乘法累加步骤,因为模型从公式矩阵的一层中提取数据,尽管每一层可能需要不同的数据大小,并且这些设备中的一些可能在输入设置为8位整数时运行得更快而不是16位整数。

“为了在数据中心获得良好的吞吐量,大多数架构依赖于必须使用相同权重集来批次创建的数十或数百个任务,”Flex Logix的联合创始人兼首席执行官Geoff Tate表示。 “如果您有28张图像,则加载图像,加载第一阶段的权重,对第一阶段进行数学运算,保存结果,然后加载第二阶段的权重。通过在每一层上完成所有28个批次,如果您一次只做一个,那么您可以将重量加载时间减少到1/28。如果加载和管理权重是你不擅长的,你可以通过批处理来解决它。这就是为什么你会看到基准测试显示批次28以低于批次1的运行效率。如果加载速度很慢,则难以扩展。但这正是您必须在数据中心外的任何地方进行的。如果您有监控摄像头,则必须在图像进入时对其进行处理,以使批量大小始终等于1.如果您正在测量性能,则批量大小始终等于数据中心外的1。

智能边缘计算

Flex Logix正在开发的神经网络引擎避免了批处理问题。 “因为我们如此快速地加载重量,所以我们不需要进行配料,所以我们的性能在批次1和28时是相同的,这在边缘应用中非常重要,”Tate说。

推理硬件的两个新的努力

Xilinx尝试利用其在FPGA和系统级设计方面的经验,采用新的产品线和路线图,旨在尽可能多地处理边缘/设备市场的各个部分。

该公司在去年春天讨论了这个想法,但仅在10月正式宣布,描述了一个“利用CPU,GPU和FPGA加速任何应用程序的自适应计算加速平台”。

Xilinx演示文稿描述了广泛的产品线,用例列表以及有关其AI引擎核心的详细信息,其目标是提供比传统方法高三到八倍的单位硅芯片面积性能,并提供高性能DSP功能。

人工智能支持的IoT架构

与此同时,Flex Logix创建了一个使用低DRAM带宽的可重构神经加速器。硅片面积和功率的目标规格将在明年上半年完成,并在下半年发布。推理引擎将充当CPU,而不仅仅是一个更大,更漂亮的加速器。它提供了一种模块化,可扩展的架构,旨在通过减少移动数据的需要并通过改进数据和矩阵计算负载的方式来减少所需的时间和能量成本瓶颈。

该芯片专用于DRAM,就好像它专用于单个处理器块而不是将其作为一个大存储池来管理。 DRAM不会同时向芯片的多个部分提供数据。 “处理DRAM非常昂贵,因为一个大的内存池流入一个处理器块是典型的Van Neumann架构,但它不会成为神经网络的成功架构,”Tate说。

早期时代

Wawrzyniak说,Xilinx,Flex Logix和其他公司涌入仍处于发展中的边缘推断市场,显示出对市场和SoC和FPGA制造商提供良好技术以应对它们的能力的广泛信心,Wawrzyniak说,但它是他说,不能保证他们能够克服安全,隐私,现状惯性和其他无形资产等问题。同样,ML加速FPGA,ASIC和SoC的市场仍处于起步阶段。

根据林利集团的Linley Gwennap的说法,在新市场发展时看到很多新的参与者和新的方法是很正常的。 FPGA和ASIC供应商正处于混合状态,因为这些技术使公司能够知道它正在做什么来快速生产合理的产品。他说,标准最终将在一到两年内恢复,这将稳定所涉及的参与者的数量和专业,并确保与其他市场之间的互操作性。

(完)

相关推荐