기타/Data Engineering

[데이터 엔지니어] 데이터 파이프라인

inanJeong 2022. 8. 10. 13:56

Big Data, 분산처리

👋 들어가기전

  • 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~

 

2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

 

[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목

inhwanjeong.tistory.com

 

 

🚨 급한사람!!  이거만 보세요

  • 🌟데이터 파이프라인(data pipelline): 데이터 수집부터 최종 저장, 워크플로 관리까지 모두 묶어 데이터 파이프라인이라고 한다.
  • 데이터 수집
    •  데이터 수집방법
      • 데이터베이스
      • 로그파일
      • 이벤트 데이터
      • 임베디드의 센서데이터
    • 데이터 전송(data transfer) 방법 
      • 벌크 형: 이미 존재하는 데이터를 정리해 추출
      • 스트리밍 형: 차례대로 끊임없이 생성되는 데이터
스트리밍 수집 -->  스트림처리 --> 시계열 DB
스트리밍 수집 --> 분산 스토리지  --> 분산데이터 처리  --> 시계열 DB, 데이터마트
벌크 수집 --> 분산 스토리지  --> 분산데이터 처리  --> 시계열 DB, 데이터마트
  • 스트림 처리(stream processing): 스트리밍 형으로 수집한 데이터를 처리하는 방법
  • 배치 처리(batch processing): 정리된 데이터를 효율적으로 가공하기위한 구조
  • 분산 스토리지(distribute storage) - (object storage, NoSQL DB)
    • 여러 컴퓨터와 디스크로 구성된 스토리지 시스템
  • 분산 데이터 처리
    • SQL 집계를 위한 쿼리 엔진(query engine) 도입(e.g. hive)
    • 데이터 웨어하우스를 이용한 ETL(Extract-Transform-Load) 프로세스
      • 데이터 추출 -> 가공 -> 데이터웨어하우스에 로드
      • ※ ELT: DB에 Load후 가공하는 방법
  • 워크플로 관리: 전체 파이프라인의 동작을 관리
    • 매일 정해진 시간에 배치 처리를 스케줄링
    • 오류발생 시 관리자에게 통지
  • 데이터 파이프라인의 기본
    • 테이블 설계ETL 프로세스가 가장 중요
    • 저장할 수 있는 용량에 제한이 없어야 함(S3 등)
    • 데이터를 효울적으로 추출할 수단이 있어야 함
데이터 ------->  데이터 웨어하우스 -------> 데이터 마트 <------- 시각화 도구
             (ETL)                                     (ETL)                            (SQL)
  • 데이터 웨어하우스: 대량의 데이터 장기 보존용 테이블
    • ETL 도구 소프트웨어를 이용하여 데이터 저장
  • 데이터 마트: 분석용으로 일부를 추출한 테이블
    • 데이터 웨어하우스의 과부화를 막기 위해 구축
  • 데이터 레이크: 정보호수, 이름 그대로 모든 데이터를 원래 형태로 저장하는 장소
  • 애드 혹 분석(ad hoc analysis): 일회성 데이터 분석
    • SQL 쿼리를 작성해 실행 또는 시트에서 그래프를 만드는 것까지 포함한 모든 수작업
    • 애드 혹 분석은 데이터 마트를 만들지 않은 채 데이터 레이크 또는 데이터 웨어하우스에 직접 연결 하는 경우가 많음
  • 데이터 수집 목적
    • 데이터 검색
      • 대량의 데이터 중 조건에 필요한 데이터가 있을 수 있음, 따라서 신속하게 데이터를 검색할 수 있어야 한다.
      • e.g. 시스템 장애, 고객의 로그 등
    • 데이터 가공
      • 업무 시스템의 일부로서 데이터 처리 결과를 활용하는 경우
      • e.g. 데이터 상품 추천 등
    • 데이터 시각화
      • 데이터 필요에 따라 시행착오를 통해 원하는 결과를 얻도록 한다.