👋 들어가기전
- 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~
2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목
inhwanjeong.tistory.com
🚨 급한사람!! 이거만 보세요
- 🌟데이터 파이프라인(data pipelline): 데이터 수집부터 최종 저장, 워크플로 관리까지 모두 묶어 데이터 파이프라인이라고 한다.
- 데이터 수집
- 데이터 수집방법
- 데이터베이스
- 로그파일
- 이벤트 데이터
- 임베디드의 센서데이터
- 데이터 전송(data transfer) 방법
- 벌크 형: 이미 존재하는 데이터를 정리해 추출
- 스트리밍 형: 차례대로 끊임없이 생성되는 데이터
- 데이터 수집방법
스트리밍 수집 --> 스트림처리 --> 시계열 DB
스트리밍 수집 --> 분산 스토리지 --> 분산데이터 처리 --> 시계열 DB, 데이터마트
벌크 수집 --> 분산 스토리지 --> 분산데이터 처리 --> 시계열 DB, 데이터마트
- 스트림 처리(stream processing): 스트리밍 형으로 수집한 데이터를 처리하는 방법
- 배치 처리(batch processing): 정리된 데이터를 효율적으로 가공하기위한 구조
- 분산 스토리지(distribute storage) - (object storage, NoSQL DB)
- 여러 컴퓨터와 디스크로 구성된 스토리지 시스템
- 분산 데이터 처리
- SQL 집계를 위한 쿼리 엔진(query engine) 도입(e.g. hive)
- 데이터 웨어하우스를 이용한 ETL(Extract-Transform-Load) 프로세스
- 데이터 추출 -> 가공 -> 데이터웨어하우스에 로드
- ※ ELT: DB에 Load후 가공하는 방법
- 워크플로 관리: 전체 파이프라인의 동작을 관리
- 매일 정해진 시간에 배치 처리를 스케줄링
- 오류발생 시 관리자에게 통지
- 데이터 파이프라인의 기본
- 테이블 설계와 ETL 프로세스가 가장 중요
- 저장할 수 있는 용량에 제한이 없어야 함(S3 등)
- 데이터를 효울적으로 추출할 수단이 있어야 함
데이터 -------> 데이터 웨어하우스 -------> 데이터 마트 <------- 시각화 도구
(ETL) (ETL) (SQL)
- 데이터 웨어하우스: 대량의 데이터 장기 보존용 테이블
- ETL 도구 소프트웨어를 이용하여 데이터 저장
- 데이터 마트: 분석용으로 일부를 추출한 테이블
- 데이터 웨어하우스의 과부화를 막기 위해 구축
- 데이터 레이크: 정보호수, 이름 그대로 모든 데이터를 원래 형태로 저장하는 장소
- 애드 혹 분석(ad hoc analysis): 일회성 데이터 분석
- SQL 쿼리를 작성해 실행 또는 시트에서 그래프를 만드는 것까지 포함한 모든 수작업
- 애드 혹 분석은 데이터 마트를 만들지 않은 채 데이터 레이크 또는 데이터 웨어하우스에 직접 연결 하는 경우가 많음
- 데이터 수집 목적
- 데이터 검색
- 대량의 데이터 중 조건에 필요한 데이터가 있을 수 있음, 따라서 신속하게 데이터를 검색할 수 있어야 한다.
- e.g. 시스템 장애, 고객의 로그 등
- 데이터 가공
- 업무 시스템의 일부로서 데이터 처리 결과를 활용하는 경우
- e.g. 데이터 상품 추천 등
- 데이터 시각화
- 데이터 필요에 따라 시행착오를 통해 원하는 결과를 얻도록 한다.
- 데이터 검색
'기타 > Data Engineering' 카테고리의 다른 글
[데이터 엔지니어] BI도구, 모니터링 (0) | 2022.08.11 |
---|---|
[데이터 엔지니어] 데이터 처리 (0) | 2022.08.11 |
[데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI (0) | 2022.08.10 |
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크 (0) | 2022.08.09 |