👋 들어가기전
- 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~
2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목
inhwanjeong.tistory.com
🚨 급한사람!! 이거만 보세요
- 데이터엔지니어, 빅데이터처리는 클라우드와 분산시스템의 발전에 따라 여러 서버와 대규모 데이터를 효율적으로 처리하기 위해 탄생하였음.
- 빅데이터: 대규모 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었고, 이때 사용하게 된 키워드가 빅데이터이다
- 빅데이터라는 단어가 대중들에게 널리 전파된것은 2011년~2012년 쯤 분산처리기술을 여러 회사에서 도입했을때 부터 이다.
- 🌟빅데이터 필요이유
- 새로운 가치 창출
- 의사결정을 위해 이용
- 빅데이터 처리 중요 이유(어려운 이유)
- 데이터의 분석방법을 모름.
- 데이터를 처리하기 위해서는 많은 물리적인 시간과 인력이 들어감
- 빅데이터 처리방법(초기)
- NoSQL - 자주일어나는 읽기/쓰기 분산처리
- RDB 제약을 제거하는 목표의 데이터베이스
- 키 밸류 스토어(redis), 도큐멘트 스토어(json 저장, mongoDB), 와이드 칼럼 스토어(여러키 제공, Cassandra)
- Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리
- Hadoop: 초기 하둡에서 데이터처리를 위해 Java로 프로그래밍을 해야했음
- Hive: SQL과 같은 쿼리언어로 하둡을 실행시키기 위해 개발됨.
- Apache Spark: 더 높은 효율과 편리성을 위해 개발
- Hadoop과 NoSQL을 조합하여 현실적인 비용으로 대규모 데이터 처리 실현
- NoSQL - 자주일어나는 읽기/쓰기 분산처리
-----> RDB(mysql)
웹서버 -----> Hadoop -----> 데이터 웨어하우스
-----> NoSQL(mongodb)
1. 데이터 처리를 위한 클라우드 서비스
- 데이터 처리 프로세스를 손쉽고 빠르게 구축 가능
- 클라우드를 위한 Hadoop
- Amazon Elastic MapReduce
- Azure HDInsight
- 데이터 웨어하우스
- 구글 BigQuery
- Amazon Redshift
2. 데이터 디스커버리
- 데이터 디스커버리: 데이터 웨어하우스에 저장된 데이터를 시각화
- BI 도구(Bussiness Intelligence tool): 데이터 디스커버리를 위한 셀프서비스용 BI도구
'기타 > Data Engineering' 카테고리의 다른 글
[데이터 엔지니어] BI도구, 모니터링 (0) | 2022.08.11 |
---|---|
[데이터 엔지니어] 데이터 처리 (0) | 2022.08.11 |
[데이터 엔지니어] 데이터 파이프라인 (0) | 2022.08.10 |
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크 (0) | 2022.08.09 |