各个工业领域的实时企业AI应用需要一个具有云无关互连的实时可行数据和ML洞察平台。 Verizon Media的Edge AI是一个专门构建的平台,专注于在数据管理和机器学习操作(MLOPS)交叉处为客户提供帮助,使他们能够在全球范围的异构基础设施上运行。 将人工智能迁移到网络边缘,可以近乎实时地做出决策和采取行动。 这为工业和消费细分市场带来了一系列激动人心的变革性应用,我们在本系列的第一篇博客文章中对此进行了概述。
正如我们将要解释的那样,Edge AI的目的是在许多方面连接设计,开发和部署边缘商业AI应用所需的所有要素,从而实现实时企业用例。 这包括我们的内容交付网络(CDN ),几乎每位全球互联网用户的延迟仅为10-25毫秒,我们的本地5G技术,可扩展应用平台即服务(aPaaS)层,云数据管理,全面的安全性以及深入的监控和分析。
从Edge AI开发流程的一开始,我们的愿景就是打造一个与基础设施无关的轻量级容器化平台,与云无关的互连,从而在边缘提供实时,可行的数据和机器学习见解。 这一愿景反过来又帮助我们坚持平台的目标和技术决策,如下图所示。
图1. Edge AI架构元素。
这九个要素在使Edge AI平台成为可能方面发挥着至关重要的作用,并且在将商业解决方案部署到生产中后,对其成功至关重要。 让我们从底部向上深入了解这些元素。
-
K ö Infrastructure:Kubernetes和容器是实现高可用性,超低延迟以及将AI/ML模型快速部署到边缘的明显选择。 与基础设施无关的Kubernetes是一个可移植,可扩展的开源平台,用于管理容器化工作负载和服务。 我们的容器基于Docker平台,这是一种打包和交付软件的高效方式,并且可以使用由AWS,Microsoft Azure和Google等领先云提供商提供的托管Kubernetes服务。
-
数据摄取:为了使AI/ML模型发展并发挥其潜力,数据必须从摄取流向多个下游系统,例如用于分析和监控的仪表板或用于模型培训的基于Apache Hadoop的文件。 对于此功能,我们使用Apache Kafka,它提供实时数据摄取,集成,消息传递和大规模的PUB/SUB。 由此产生的多方数据摄取层提供毫秒延迟,保证交付和节流支持。
-
Low延迟数据存储:数据存储在Edge AI中扮演着重要角色,因为它需要亚秒级延迟,高吞吐量和低占用空间的数据存储层,以及同步回各种云平台以获取存储和历史见解。 在这里,我们转向Redis NoSQL数据库系统。 NoSQL数据库(如Redis)的结构不如关系数据库。 此外,它们更灵活,可更好地扩展—使其成为此应用的理想解决方案。
-
Data处理: Edge AI需要实时流处理来捕获来自不同来源的事件,检测复杂条件并实时发布到不同的端点。 我们使用的是Siddhi Complex事件处理器(CEP)。 它是一个开源,云原生,可扩展的微流CEP系统,能够为实时分析,数据集成,通知管理和适应性决策等用例构建事件驱动型应用程序。
-
AI /ML服务: Edge AI平台通过Seldon.io开源框架,在云和边缘基础设施中实时提供完整的AI/ML部署和生命周期管理。 它支持多种异构工具包和语言。
-
Data可视化:用于实时分析和仪表板的可视化是使用Grafana仪表板和自定义开发的Node.js REST服务构建的,用于Redis数据存储的实时查询。
-
ML培训和使用案例: Edge AI平台支持最流行的ML框架,包括sci-kit-learn,TensorFlow,Keras和PyTorch ,并提供完整的模型生命周期管理。 一旦开发和测试了模型,就会使用大型数据集对其进行培训,打包并最终在边缘无缝部署。
-
安全性和治理:安全性内置在整个Edge AI平台中。 它可以容纳可自定义的安全框架,并且与客户部署方案无关,并且可以跨多云策略进行互操作。
-
Monitoring和编排:我们使用Kubernetes的持续交付工具Argo CD等工具,通过CI/CD管道实现从云到边缘的编排。 我们的目标是使Edge AI应用程序部署和生命周期管理自动化,可审计且易于理解。
Platform参考架构
Now您已经大致了解了Edge AI平台中正在发挥的作用,让我们来看看它们是如何融合在一起的。 如下图所示,Edge AI平台架构有三个主要部分:
-
数据摄取和处理
-
模型培训
-
模拟部署和服务
模型在云端进行培训,并在边缘提供实时用例。 与时间无关的批量推理发生在云中。
图2. Edge AI—参考架构。
与可以实施,部署和偶尔更新的传统应用不同,AI/ML应用程序不断学习和改进。 平台内有三个主要工作流程可帮助我们完成上述任务:
-
实时流式传输工作流:这是应用程序的主要功能所在。 CEP捕获和处理流数据,并智能扫描见解或错误情况。 CEP从传入数据的原始流中提取特征或值得注意的信息,并将其发送到经过训练的模型进行分析。 预测实时发送回CEP规则引擎进行聚合。 如果满足特定条件,则会采取措施,例如关闭外部系统或提醒机器操作员潜在故障。 所有的实时预测和推论都被传递到离线云,以进行进一步的监控和评估。 在此区域中,根据不断发展的数据更新功能,使客户能够执行与下图4所述机器学习管道集成的功能工程。
-
包含批量数据的按需工作流程:推荐或个性化等外部系统可以在边缘平台内嵌入模型。 它们通过嵌入式API网关公开为REST或gRPC端点,允许实时推理调用和预测。
-
Historical Insights工作流程:所有数据(原始数据,聚合数据和预测数据)都存储在边缘平台的内存存储中。 这些数据通过云连接器定期同步到云平台。 一旦数据进入云端,它就会用于重新培训和改进模型,以实现持续改进。 重新培训的模型遵循从培训到跟踪到云发布的完整生命周期。 然后,发布的模型将在持续部署中无缝地提供给边缘平台。 历史见解和批量推理在云中完成。
Edge AI摄取,处理和存储
One AI/ML解决方案最重要的方面是能够快速高效地捕获和存储数据。 对于某些应用,例如物联网传感器,数据量可能很大。 为了让您对规模有一些了解,IDC预测,到2025年,仅物联网设备就会生成近80泽字节的数据。
为支持海量数据量最大,Edge AI平台(如下所示)支持多个摄取源(物联网,视频,位置和传感器),协议和摄取提供商。 它还支持高吞吐量,低延迟(数百万个事件/秒,10毫秒延迟)。
图3. 平台摄取,处理和存储。
当传入的视频,物联网或传感器数据到达时,摄取层使用内置节流来保证数据传输并防止溢出情况。 消息代理将传入的数据传递到流/事件引擎,在那里对其进行转换,丰富或清理,然后再移动到内存存储。 一旦数据存储在内存存储中,它将定期与分布式云存储同步。 可视化工具使用内存存储中的数据提供实时分析和操作仪表板。
Machine学习渠道
Machine学习依赖于算法;除非您是数据科学家或ML专家,否则这些算法的理解和工作非常复杂。 这就是机器学习框架的用处,它使开发ML模型成为可能,而无需深入了解底层算法。 虽然TensorFlow,PyTorch和sci-kit-learn可以说是当今最流行的ML框架,但将来可能不会如此,因此为预期应用选择最佳框架非常重要。
为此,Edge AI平台支持用于模型培训,特征工程和服务的全系列ML框架。 如下图所示,Edge AI支持完整的模型生命周期管理,包括培训,跟踪,包装和服务。
图4. 机器学习管道。
让我们来看看Edge AI平台上的典型机器学习工作流。 首先,您可以利用所选的ML框架在本地环境中创建模型。 将模型拉到一起后,测试将从小数据集开始,并使用MLflow和Sagemaker等模型生命周期工具捕获实验。 在初始测试后,该模型已准备就绪,可在云端对较大的数据集进行训练,同时进行超参数调整。 模型版本存储在云上的模型存储库中。
模型在云中经过全面培训后,下一步是在边缘进行初始部署以进行进一步测试。 然后,该模型将经过最终测试和打包(并基于边缘上的某些部署触发器)从云中提取,并在边缘平台上无缝部署。 模型指标持续收集并发送到云端,以便进一步调整和改进模型。
Platform服务和监控
For在ML框架选择和支持方面具有最大灵活性, Edge AI平台使用REST或gRPC端点实时提供模型服务。 服务和监控体系结构的概述如下所示。
图5. Edge AI可以为使用任何类型的机器学习框架创建的模型提供服务。
我们平台的持续集成工具(如Jenkins X)允许使用部署触发器将模型推送到边缘的模型商店。 持续部署工具(如Argo CD)用于从存储库中提取模型映像,并将每个模型部署为独立的POD。
部署的模型使用带有rest/gRPC接口的谢顿提供服务,并在API网关后面实现负载平衡。 客户端将REST/gRPC调用发送到API网关以生成预测。 模型管理和指标使用Seldon提供,日志记录和监控使用ELK Stack和/或Prometheus完成。
集成人工智能和计算能力,与直接在网络边缘的云服务相结合,使组织能够将日益复杂和变革性的实时企业用例推向市场。 如本文所述,Edge AI平台有助于大规模实现实时企业AI,并显著减少了将各种实时ML应用程序投入使用的障碍。 这使客户能够加快试运行的实施,并从试运行到生产的有效扩展。
在即将到来的最后一期博客系列中,我们将探讨基于Edge AI平台的解决方案设计和部署过程,并提供预测分析,智能制造和物流领域的Edge AI解决方案的客户示例。
Contact我们来详细了解您的应用如何从我们的Edge AI平台中受益。
要阅读本系列的第一篇博客,请单击此处。