[데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI

👋 들어가기전

[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목

inhwanjeong.tistory.com

데이터엔지니어, 빅데이터처리는 클라우드와 분산시스템의 발전에 따라 여러 서버와 대규모 데이터를 효율적으로 처리하기 위해 탄생하였음.
빅데이터: 대규모 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었고, 이때 사용하게 된 키워드가 빅데이터이다
- 빅데이터라는 단어가 대중들에게 널리 전파된것은 2011년~2012년 쯤 분산처리기술을 여러 회사에서 도입했을때 부터 이다.
🌟빅데이터 필요이유
- 새로운 가치 창출
- 의사결정을 위해 이용
빅데이터 처리 중요 이유(어려운 이유)
- 데이터의 분석방법을 모름.
- 데이터를 처리하기 위해서는 많은 물리적인 시간과 인력이 들어감
빅데이터 처리방법(초기)
- NoSQL - 자주일어나는 읽기/쓰기 분산처리
  - RDB 제약을 제거하는 목표의 데이터베이스
  - 키 밸류 스토어(redis), 도큐멘트 스토어(json 저장, mongoDB), 와이드 칼럼 스토어(여러키 제공, Cassandra)
- Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리
  - Hadoop: 초기 하둡에서 데이터처리를 위해 Java로 프로그래밍을 해야했음
  - Hive: SQL과 같은 쿼리언어로 하둡을 실행시키기 위해 개발됨.
  - Apache Spark: 더 높은 효율과 편리성을 위해 개발
- Hadoop과 NoSQL을 조합하여 현실적인 비용으로 대규모 데이터 처리 실현

-----> RDB(mysql)
웹서버 -----> Hadoop -----> 데이터 웨어하우스
-----> NoSQL(mongodb)