AWS

[aws summit seoul 2023] 불확실성 시대의 대응, HPC Cloud Bursting 사례

한크크 2024. 4. 26. 17:56

#aws summit seoul 2023 에서 발표된 불확실성 시대의 대응, HPC Cloud Bursting 사례 영상을 보고 정리한 내용입니다.

 

  • 글로벌 기술 패권, 공급망 불안, 인플레이션에 가장 영향을 많이 받는 산업이 반도체 산업

  • 차량용 AP / IOT 제조 업체 - 네덜란드 NXP 반도체 회사 중 하나
  • 반도체 설계 워크로드(EDA)를 AWS 로 마이그레이션 함 
    • 마이그레이션 전 4개의 데이터센터에 동일한 EDA 워크로드를 돌릴 수 있는 HPC 구성되어 있었음 → EDA 워크로드 표준화

  • 로컬 데이터센터에 여유가 있으면 로컬 데이터센터에서 Job 처리, 부족할 경우 remote datacenter 로 포워딩 
  • remote datacenter 에도 부족하다면 aws 로 포워딩 

  • cloud migration 할 때 인스턴스에 대한 성능 중요
  • AWS 에서 제공하는 인스턴스(intel)의 성능이 IDC 보유 서버보다 좋음 → aws 제공하는 클라우드 전용 플래티넘 등급 CPU 제공하기 때문에 성능 좋음 

  • 인프라 민첩성/유연성 장점
    • 대규모 투자 발생, 최신의 CPU 출시에 따라 짧게는 2년마다 업그레이드 작업 필요 
  • 인텔, AMD, graviton 등 다양한 cpu 사용 가능 

 

HPC on AWS 솔루션

Amazon 자체 생산 반도체

  • 컴퓨팅에 필요한 모든 구성 요소를 직접 설계함 → AWS 가 HPC 를 가장 잘 이해하고 활용하는 기업이다. 
    • Nitor system - ec2 기본 
    • graviton - arm 기반 (computing 집약적) , DDR5 memory 제공
    • inferntia, trainium - 머신러닝 전용

  • NICE DCV
    • 고성능 원격 디스플레이 프로토콜
    • 다양한 네트워크 조건에서 클라우드 또는 데이터 센터에서 모든 디바이스로 원격 데스크톱 및 애플리케이션 스트리밍을 안전하게 제공

  • 노드 간 노드 고속 네트워크를 Elastic Fabric Adapter 제공
  • 제조산업 전반 필요한 데이터 공유를 위한 협업 환경 모델 - secure chamber

  • 반도체 설계 흐름에 따라 
    • front-end design - cpu/gpu 집약적
    • back-end design - 시뮬레이션, verification 필요 / 메모리 집약적
  • aws 는 400개 이상의 인스턴스 타입 제공

  • cloud formation 의 템플릿 형태로 제공 
  • 배포 후 30분이면 HPC on AWS 환경 구성 가능 

반도체 제품 출시  시장 흐름 

각 단계의 출력이 다음 단계의 입력으로 동작 → 산업 간 원활한 데이터 공유 필요 → chamber 형식의 아키텍처 제공

  • vpc 기반으로 Chamber 를 만들고, collaboration chamber를 통해 datacenter, foundry, 제조 공장 간 데이터 공유 환경 구축 가능 
  • iot, ai/ml, analytics 서비스를 통해 산업 전반에 걸친 협업 모델을 만들 수 있음 

 


삼성전자 HPC Bursting 사례 

  • cloud bursting 에 필요한 워크로드를 3년정도 준비함
  • 메모리 사이즈 별, single/multi thread 별, Network latency 등 다양하게 테스트 진행 
  • 인스턴스 가상화로 인한 성능 저하는 없없음 → BM 과 비슷한 수준의 성능을 확인함 

  • AWS system manager, cloud watch 등 인스턴스 관리에 필요한 관리 상품은 사용할 수 없었음 (삼성에서 알아서 함)

23년에는 Bursting 물량에 대해서만 AWS 사용중이나 점차 확대하려고 인스턴스 검증을 지속적으로 진행하고 있음

EDA 워크로드 필요한 경우 1~2일 정도면 인스턴스 환경 프로비저닝, 테스트 가능 → IaC 활용해서 자동화 구성 (ec2 fleet 활용)

  • EC2 Fleet - 인스턴스 유형, AZ, 온디맨드, RI, Spot 등 구메모델을 정의하여 대량의 인스턴스를 프로비저닝할 수 있는 기능 
반응형