Home Blogs Edge AI: 작동 방식
Applications

About The Author

Outline

다양한 산업 부문의 실시간 엔터프라이즈 AI 애플리케이션에는 클라우드에 구애받지 않는 상호 연결을 갖춘 실시간으로 실행 가능한 데이터와 ML 인사이트 플랫폼이 필요합니다. Verizon Media의 Edge AI는 고객이 데이터 관리와 머신 러닝 운영(MLOps)이 교차하는 상황에서 글로벌 규모의 이기종 인프라에서 운영할 수 있도록 지원하는 데 중점을 둔 맞춤형 플랫폼입니다. 인공 지능을 네트워크 에지로 이동하면 거의 실시간으로 의사 결정과 조치를 취할 수 있습니다. 이를 통해 산업 및 소비자 부문에서 다양하고 혁신적인 응용 분야를 열 수 있으며, 이 시리즈의 첫 번째 블로그 게시물에서 설명했습니다.

설명하겠지만, Edge AI의 목적은 엣지에서 상용 AI 애플리케이션을 설계, 개발 및 배포하는 데 필요한 모든 요소를 연결하여 실시간 엔터프라이즈 사용 사례를 지원하는 것입니다. 여기에는 전 세계 거의 모든 인터넷 사용자의 지연 시간이 10-25밀리초에 불과한 CDN(콘텐츠 전송 네트워크), 온프레미스 5G 기술, 확장 가능한 aPaaS(Application Platform as a Service) 계층, 클라우드 데이터 관리, 포괄적인 보안, 심층 모니터링 및 분석 등이 포함됩니다.

Edge AI 개발 프로세스의 시작부터 Akamai의 비전은 클라우드와 무관한 상호 연결을 통해 인프라와 무관한 경량 컨테이너형 플랫폼을 구축하여 에지에서 실시간으로 실행 가능한 데이터와 머신 러닝 인사이트를 제공하는 것이었습니다. 이러한 비전은 아래 그림에 설명된 대로 플랫폼의 목표와 기술 결정을 준수하는 데 도움이 되었습니다.

그림 1. Edge AI 아키텍처 요소.

이 9가지 요소는 Edge AI 플랫폼을 가능하게 하는 데 필수적인 역할을 하며, 상용 솔루션이 생산 환경에 배포됨에 따라 성공에 매우 중요합니다. 아래에서 위로 작업하면서 이러한 요소에 대해 자세히 살펴보겠습니다.

  1. ‍Infrastructure: Kubernetes와 컨테이너는 고가용성, 초저지연, AI/ML 모델의 신속한 에지 구축을 위한 확실한 선택이었습니다. 인프라에 구애받지 않는 Kubernetes는 컨테이너화된 워크로드 및 서비스를 관리하기 위한 이식성과 확장성이 뛰어난 오픈 소스 플랫폼입니다. 당사의 컨테이너는 Docker 플랫폼을 기반으로 하며, 소프트웨어를 패키징하고 전달하는 효율적인 방법이며, AWS, Microsoft Azure 및 Google과 같은 선도적인 클라우드 제공업체가 제공하는 관리형 Kubernetes 서비스에서 작동합니다.

  2. 데이터 수집: AI/ML 모델이 진화하고 잠재력을 달성하려면 데이터가 수집에서 분석 및 모니터링을 위한 대시보드 또는 모델 교육을 위한 아파치 하둡 기반 파일과 같은 여러 다운스트림 시스템으로 이동해야 합니다. 이 기능을 위해 우리는 실시간 데이터 수집, 통합, 메시징 및 PUB/SUB를 대규모로 제공하는 Apache Kafka를 사용하고 있습니다. 결과적으로 다자간 데이터 수집 계층은 밀리초 지연 시간, 보장된 전송 및 스로틀링 지원을 제공합니다.

  3. ‍Low-latency 데이터 스토리지: Edge AI에서 데이터 스토리지는 1초 미만의 지연 시간, 높은 처리량, 낮은 설치 공간 데이터 스토리지 계층에 대한 필요성, 스토리지 및 과거 통찰력을 위해 다양한 클라우드 플랫폼으로 다시 동기화할 수 있는 기능 때문에 중요한 역할을 합니다. 여기서 우리는 Redis NoSQL 데이터베이스 시스템으로 전환했습니다. Redis와 같은 NoSQL 데이터베이스는 관계형 데이터베이스보다 구조가 낮습니다. 또한 유연성이 뛰어나고 확장성이 뛰어나 이 애플리케이션에 이상적인 솔루션입니다.

  4. ‍Data 프로세싱: Edge AI에서는 다양한 소스에서 이벤트를 캡처하고, 복잡한 조건을 감지하고, 다양한 엔드포인트에 실시간으로 퍼블리싱하기 위해 실시간 스트림 프로세싱이 필요합니다. 현재 Siddhi Complex Event Processor(CEP)를 사용하고 있습니다. 실시간 분석, 데이터 통합, 알림 관리 및 적응형 의사 결정 등의 사용 사례를 위한 이벤트 중심 애플리케이션을 구축할 수 있는 오픈 소스 클라우드 네이티브 확장 가능한 마이크로 스트리밍 CEP 시스템입니다.

  5. ‍AI/ML 서비스: Edge AI 플랫폼은 Seldon.io 오픈 소스 프레임워크를 통해 클라우드 및 에지 인프라 전반에 걸쳐 완전한 AI/ML 배포 및 라이프사이클 관리를 실시간으로 제공합니다. 다양한 이기종 툴킷과 언어를 지원합니다.

  6. ‍Data 시각화: 실시간 분석 및 대시보딩을 위한 시각화는 Redis 데이터 저장소의 실시간 쿼리를 위한 Grafana 대시보드와 맞춤형 Node.js REST 서비스를 사용하여 구축됩니다.

  7. ‍ML 교육 및 사용 사례: Edge AI 플랫폼은 공상 과학 키트 학습, TensorFlow, Keras, PyTorch 등 가장 인기 있는 ML 프레임워크를 지원하며 완벽한 모델 라이프사이클 관리를 제공합니다. 모델이 개발 및 테스트되면 대규모 데이터 세트를 사용하여 교육을 받고 패키징된 후 궁극적으로 에지에 원활하게 배포됩니다.

  8. ‍‍보안 및 거버넌스: 전체 Edge AI 플랫폼에 보안이 내장되어 있습니다. 사용자 지정 가능한 보안 프레임워크를 수용할 수 있으며 고객 배포 시나리오에 종속되지 않으며 멀티 클라우드 전략 전반에서 상호 운용이 가능합니다.

  9. ‍Monitoring 및 오케스트레이션: 쿠버네티스를 위한 지속적인 제공 툴인 Argo CD와 같은 툴을 사용하여 CI/CD 파이프라인을 통해 클라우드에서 에지까지 오케스트레이션을 달성합니다. 우리의 목표는 Edge AI 애플리케이션 배포 및 수명 주기 관리를 자동화하고 감사 가능하며 이해하기 쉽게 만드는 것이었습니다.

‍Platform 레퍼런스 아키텍처

‍Now Edge AI 플랫폼에서 사용되는 기술에 대해 간략하게 살펴보았으므로, 이러한 기술이 어떻게 조화를 이루는지 살펴보겠습니다. 아래 그림과 같이 Edge AI 플랫폼 아키텍처는 세 가지 주요 부분으로 구성됩니다.

  1. 데이터 수집 및 처리

  2. 모델 교육

  3. 모델 구축 및 서비스

모델은 클라우드에서 교육을 받고 에지에서 실시간 사용 사례를 제공합니다. 시간 종속적이지 않은 배치 추론은 클라우드에서 수행됩니다.

그림 2. 에지 AI – 레퍼런스 아키텍처.

구현, 배포 및 때때로 업데이트되는 기존 애플리케이션과 달리 AI/ML 애플리케이션은 지속적으로 학습하고 개선합니다. 플랫폼 내에는 위의 작업을 수행하는 데 도움이 되는 세 가지 주요 워크플로우가 있습니다.

  1. 실시간 스트리밍 워크플로우: 애플리케이션의 주요 기능이 수행되는 곳입니다. CEP는 스트리밍 데이터를 캡처 및 처리하고 통찰력 또는 오류 상태를 지능적으로 스캔합니다. CEP는 들어오는 데이터의 원시 스트림에서 기능 또는 주목할 만한 정보를 추출하여 분석을 위해 훈련된 모델로 보냅니다. 예측은 집계를 위해 CEP 규칙 엔진으로 실시간으로 다시 전송됩니다. 특정 조건이 충족되면 외부 계통을 종료하거나 장비 운전자에게 잠재적인 고장을 경고하는 등의 조치가 취해집니다. 모든 실시간 예측 및 추론은 추가 모니터링 및 평가를 위해 오프라인 클라우드로 전달됩니다. 이 영역은 고객이 아래 그림 4에 설명된 기계 학습 파이프라인과 통합된 기능 엔지니어링을 수행할 수 있도록 진화하는 데이터를 기반으로 기능이 업데이트되는 영역입니다.

  2. 데이터 배치가 포함된 온디맨드 워크플로우: 추천 또는 개인화와 같은 외부 시스템은 에지 플랫폼에 모델을 내장할 수 있습니다. 임베디드 API 게이트웨이를 통해 REST 또는 gRPC 엔드포인트로 노출되므로 실시간 유추 호출 및 예측이 가능합니다.

  3. ‍Historical Insights 워크플로: 모든 데이터(원시, 집계 및 예측)는 에지 플랫폼의 인메모리 스토어 내에 저장됩니다. 이 데이터는 클라우드 커넥터를 통해 정기적으로 클라우드 플랫폼에 동기화됩니다. 데이터가 클라우드에 저장되면 지속적인 개선을 위해 모델을 재교육하고 발전시키는 데 사용됩니다. 재교육된 모델은 교육에서 추적, 클라우드 게시까지 전체 수명 주기를 따릅니다. 그런 다음 게시된 모델은 지속적인 배포를 통해 에지 플랫폼에 원활하게 제공됩니다. 과거에 대한 통찰력과 일괄 추론은 클라우드에서 수행됩니다.

Edge AI 인제스트, 처리 및 스토리지

‍One AI/ML 솔루션의 가장 중요한 측면은 빠르고 효율적으로 데이터를 캡처하고 저장할 수 있는 능력입니다. IoT 센서와 같은 일부 애플리케이션에서는 데이터 볼륨이 엄청날 수 있습니다. 규모에 대한 아이디어를 제공하기 위해 IDC는 IoT 장치만으로도 2025년까지 거의 80제타바이트의 데이터를 생성할 것으로 예측합니다.

가장 방대한 양의 데이터도 지원하기 위해, Edge AI 플랫폼은 아래와 같이 여러 인제스트 소스(IoT, 비디오, 위치 및 센서), 프로토콜 및 인제스트 제공업체를 지원합니다. 또한 지연 시간이 짧은 높은 처리량(10ms의 지연 시간으로 초당 수백만 개의 이벤트)을 지원합니다.

그림 3. 플랫폼 수집, 처리 및 저장.

수신 비디오, IoT 또는 센서 데이터가 도착하면 인제스트 레이어는 내장된 스로틀링을 사용하여 데이터 전송을 보장하고 오버플로우 상태를 방지합니다. 메시지 브로커는 들어오는 데이터를 스트림/이벤트 엔진으로 전달하여 메모리 저장소로 이동하기 전에 변환, 강화 또는 정리합니다. 데이터가 메모리 저장소에 저장되면 분산 클라우드 저장소와 주기적으로 동기화됩니다. 시각화 도구는 메모리 저장소의 데이터를 사용하여 실시간 분석 및 운영 대시보드를 제공합니다.

‍Machine 학습 파이프라인

‍Machine 학습은 알고리즘에 의존합니다; 여러분이 데이터 과학자나 ML 전문가가 아니라면, 이 알고리즘은 이해하고 작동하기가 매우 복잡합니다. 기계 학습 프레임워크가 등장하여 기본 알고리즘에 대한 깊은 이해 없이도 ML 모델을 쉽게 개발할 수 있습니다. TensorFlow, PyTorch 및 공상 키트 학습은 틀림없이 오늘날 가장 인기있는 ML 프레임워크이지만 미래에는 그렇지 않을 수 있으므로 의도한 응용 프로그램에 가장 적합한 프레임워크를 선택하는 것이 중요합니다.

이를 위해 Edge AI 플랫폼은 모델 교육, 기능 엔지니어링 및 서비스를 위한 모든 범위의 ML 프레임워크를 지원합니다. 아래 그림과 같이 Edge AI는 교육, 추적, 패키징 및 서비스를 포함한 완벽한 모델 라이프사이클 관리를 지원합니다.

그림 4. 머신 러닝 파이프라인.

Edge AI 플랫폼의 일반적인 머신 러닝 워크플로우를 살펴보겠습니다. 첫째, 선택한 ML 프레임워크를 활용하여 로컬 환경에서 모델을 생성합니다. 모델이 결합되면 작은 데이터 세트로 테스트가 시작되고 MLflow 및 Sagemaker와 같은 모델 수명 주기 도구를 사용하여 실험을 캡처합니다. 초기 테스트 후 하이퍼파라미터 튜닝과 함께 대규모 데이터 세트에 대해 클라우드에서 모델을 교육할 수 있습니다. 모델 버전은 클라우드의 모델 리포지토리에 저장됩니다.

모델이 클라우드에서 완전히 교육되면 다음 단계는 추가 테스트를 위해 에지에 초기 배포입니다. 그런 다음 최종 테스트 및 패키징을 거쳐 에지의 특정 배포 트리거를 기반으로 클라우드에서 가져와 에지 플랫폼에 원활하게 배포됩니다. 모델 메트릭은 지속적으로 수집되어 추가 모델 튜닝 및 발전을 위해 클라우드로 전송됩니다.

‍Platform 봉사 및 감시

‍For ML 프레임워크 선택 및 지원에서 최대한의 유연성을 제공하는 Edge AI 플랫폼은 REST 또는 gRPC 엔드포인트를 사용하여 실시간으로 모델을 제공합니다. 다음은 서비스 및 모니터링 아키텍처의 개요입니다.

그림 5. Edge AI는 모든 유형의 머신 러닝 프레임워크로 제작된 모델을 지원할 수 있습니다.

Jenkins X와 같은 플랫폼의 지속적인 통합 툴을 사용하면 배포 트리거를 사용하여 모델을 에지의 모델 저장소로 푸시할 수 있습니다. Argo CD와 같은 연속 배포 도구를 사용하여 리포지토리에서 모델 이미지를 가져와 각 모델을 독립형 포드로 배포합니다.

배포된 모델은 REST/gRPC 인터페이스와 함께 Seldon을 사용하여 제공되며 API 게이트웨이 뒤에서 로드 밸런싱이 이루어집니다. 클라이언트는 예측을 생성하기 위해 REST/gRPC 호출을 API 게이트웨이로 보냅니다. 모델 관리 및 메트릭은 Seldon을 사용하여 제공되며 로깅 및 모니터링은 ELK Stack 및/또는 Prometheus를 사용하여 수행됩니다.

AI와 컴퓨팅 용량을 네트워크 에지에서 직접 클라우드 서비스와 통합함으로써 조직은 점점 더 정교하고 혁신적인 실시간 엔터프라이즈 사용 사례를 시장에 출시할 수 있습니다. 이 게시물에서 설명한 바와 같이 Edge AI 플랫폼은 실시간 엔터프라이즈 AI를 대규모로 운영하고 다양한 실시간 ML 애플리케이션을 구현하는 데 따르는 장애물을 크게 줄여줍니다. 이를 통해 고객은 파일럿 구현을 가속화하고 파일럿에서 생산까지 효과적으로 확장할 수 있습니다.

이 세 부분으로 구성된 블로그 시리즈의 마지막 부분에서는 Edge AI 플랫폼을 기반으로 솔루션을 설계 및 배포하는 프로세스를 살펴보고 예측 분석, 스마트 제조 및 물류 분야의 Edge AI 솔루션에 대한 고객 사례를 제공합니다.

‍Contact 귀사의 애플리케이션이 Edge AI 플랫폼의 이점을 어떻게 활용할 수 있는지 자세히 알아보시기 바랍니다.

이 시리즈의 첫 번째 블로그를 읽으려면 여기를 클릭하십시오 .