Data, ML, BI Native Service의 특징

Print

Fully Managed 기반의 Data, ML, BI Solution Service

  • Native Service 리소스 내에서 개발 및 운영
    • Native Service 의 운영에 영향을 주는 요소는 Service 내에서 개발자/운영자가 개발한 Code/Query/Model
    • 개발자/분석가 등 서비스를 이용하는 사람의 Skill 및 비즈니스 요건에 따라 성능 요건이 모두 다름
    • 서비스 생성 및 변경 시 설정값은 비즈니스 분석 요건에 따라 모두 다르며 Default value의 설정이 의미가 없는 특징이 있음
  • Native Service 리소스 외부에서 개발 및 운영되는 AP 또는 3rd Party Instance에서 연동을 통해 사용
    • Native Service 의 운영에 영향을 주는 요소는 Service 외부에 존재
    • 고객사별 비즈니스 요건, AP의 용도에 따라 성능 요건이 모두 다름
    • 서비스 생성 및 변경 시 설정값은 비즈니스 분석 요건에 따라 모두 다르며 Default value의 설정이 의미가 없는 특징이 있음
  • Native Service 운영 요소
    • 사용자 요청에 따른 리소스 생성/변경
    • CSP에서 리소스 PM(Prevention Maintenance 기간 중 모니터링(시작/종료/활성화 확인 등)
    • 모니터링을 통한 이상에 대하여 개발 및 운영조직에 상황 전파
    • 모니터링을 통한 사전 운영조직과 합의된 리소스 Scaling  및 향후 증설에 대한 Advice


Management-Metric 선정


  • 메트릭은 공통지료포서 필수 모니터링 Metric과, Site/Service 특화 된 협의 모니터링 Metric 으로 분리하여 정의
  • 필수 모니터링 Metric
    • 서비스 자원의 IaaS 성 지표로서 (예 : CPU 사용율. Mem 사용율, Storage 사용율)
    • Provisioning Service 로서 Auto Scaling을 위한 지표
    • Native Service 별 공통 지표
  • 특화 모니터링 Metric
    • Native Service 의 특성상 상당 수가 Serverless/Managed Service
    • IssS 성 지표이기는 하지만 서비스의  운영에 지장을 주지 않는 지표(예 : Training 시 GPU 사용율)
    • 특정 주기/시기(분기/반기/연간 Batch, Marketing) 에 비즈니스 요건에 의해 한시적으로 확인 할 지표(예 : Service Query Queue)
    • Native Service/Site/운영 환경에 따라 별도 모니터링



Management-모니터링

  • MSP(Cloud Mgmt)
    • Native Service 모니터링의 주체로서 Metric/서비스별 임계치 도달 시 관련 이해 조직간의 Coordinator 역할 수행
    • 임계치 도달 시 Native Service 리소스의 문제인지 서비스의 문제인지를 파악 하고 관련 조직과 Comm.
    • 필요시 리소스 증설에 대한 Advice(Provisioning Service 限)
  • 서비스 조직(운영/개발)
    • 서비스 운영 프로세스 개선 활동, 자원 증설에 대한 의사결정
    • 개발조직의 서비스 AP 코드 튜닝을 통한 서비스 개선 활동
  • CSP(AWS/Azure)
    • CSP별 Native Service의 근본적인 문제일 경우 이에 대한 개선 활동
    • Trouble shooting 사례 제공을 통해 원인 해결 방안 제시


Management-장애

  • 장애인지
    • Cloud 운영조직은 Native Service 장애에 대한 컨트롤타워의 역할을 수행
    • 장애의 인지는 Metric 모니터링, 서비스 개발/운영 조직, CSP로부터 확인
  • 장애조치
    • Cloud 운영조직은 장애의 원인을 서비스 운영, 서비스 AP, Native Service 연동 IaaS, CSP 장애 인지를 분석하고, 판단하여 해당 담당 조직과 Comm 수행
    • Cloud 운영조직은 장애가 Close 될때까지 L/H/C 수행
    • Cloud 운영조직은 Native Service와 연계된 서비스로 인한 장애일 경우 해당 Service Owner 조직에 통보 및 개선 요청
    • Service Owner 조직은 서비스 운영/개발에 기인한 장애일 경우 복구방안 및 재발 방지 방안 수립 및 시행 하고 결과를 Cloud 운영조직에 f/b
    • 동일장애가 지속 발생시 Root Cause Analysis를 수행하여 근본적인 문제해결을 위해 후속조치를 Root Cause에서 수행

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.