Pipeline - 서비스 개요

Print

Pipeline 소개 및 주요기능


  • Pipeline은 분석대상 데이터의 수집/전처리/저장(Data Pipeline)과 전처리과정을 통해 정제된 데이터로 머신러닝 모델을 개발/학습(Machine Learning Pipeline)할 수 있도록 지원해주는 GUI 기반 솔루션입니다.

  • UI/UX 기반 다양한 데이터 편집기능을 Designer화면에 Drag & Drop하여 Workflow를 손쉽게 설계할 수 있고, 이렇게 설계된 Batch Job을 실행/제어할 수 있습니다.

  • 기존 버전의 Batch Pipeline(데이터전처리)과 ML Modeler(머신러닝)를 통합하여 Spark MLlib기반 머신러닝 학습을 단일시스템에서 일괄 수행할 수 있도록 개선했습니다. 또한, Pipeline의 효과적인 관리를 위해 Job 스케줄링, 모니터링 기능과 workflow 실행상태, 이력 등을 바로 확인할 수 있도록 직관적인 Dashboard를 제공합니다.

Pipeline에서 제공하는 주요 기능은 다음과 같습니다.


1. 컴포넌트 제공 및 스케줄 관리

다양한 하둡 에코 작업 / 시스템 작업을 컴포넌트 형태로 제공하여 시작/종료시간,스케줄 주기 설정 등 환경설정 관련 제반 작업을 손쉽게 할 수 있도록 지원

2. 데이터 조회 및 분석 작업 지원

데이터 Preview 기능 등을 활용하여 워크플로우 작성과정에서 인터렉티브하게 데이터 확인 가능. 분석가의 수작업을 최소화하고 분석지표를 시각화하기 위한 다양한 알고리즘 제공

3. 변수 처리 지원

일반/날짜 파라미터, 데이터 셋 등 다양한 동적 변수 지정 가능

4. 머신러닝 모델개발 및 적용

기존 ML Modeler에서 제공하던 Spark MLlib 기반 머신러닝 모델을 개발 및 적용가능. 대용량 데이터를 위한 분산 병렬 머신러닝 수행 및 분석 모델 자산화를 통해 재사용 가능

5. 모니터링 제공

배치 잡(Job) 별 상태 및 실행 정보를 직관적인 UI로 확인

6. 다양한 관리 도구

HDFS, Hive, S3 등의 다양한 브라우저와 관리 기능 제공

상세 Manual


  • AccuInsight+ Pipeline의 페이지 링크를 참조하시면 상세 기능을 참조하실 수 있습니다.

https://accuinsight.github.io/docs/pipeline/pipeline

이 답변이 유용합니까? 아니오

Send feedback
도움을 드리지 못해 죄송합니다. 피드백을 주시면 이 문서의 품질을 높이겠습니다.