inanJeong
이난's 프로그래밍 지식 사이트
inanJeong
전체 방문자
오늘
어제
  • 분류 전체보기 (83)
    • 회고록 및 개발일기 (4)
    • Advanced (0)
    • Python (18)
      • 파이썬 기초 (0)
      • 파이썬스럽게 개발하기 (6)
      • Django (5)
      • 고성능 파이썬 (0)
      • matplotlib (3)
      • Error (4)
    • 기타 (61)
      • Shell Script (2)
      • 라즈베리파이 (5)
      • 티스토리 꾸미기 (2)
      • 알고리즘 (2)
      • 소프트웨어 개발론 (0)
      • JIRA(프로젝트 관리 도구) (1)
      • git (1)
      • Swagger (1)
      • docker (2)
      • web_server (2)
      • MySQL (2)
      • front_end (3)
      • javascripts(typescript + ES.. (5)
      • ServerSideApplication (1)
      • Data Engineering (5)
      • flutter (2)
      • JSP (10)
      • Spring boot (5)
      • React (3)
      • elasticSearch (1)
      • AWS (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
inanJeong

이난's 프로그래밍 지식 사이트

[데이터 엔지니어]  빅데이터 개요 — 분산시스템, 비즈니스, BI
기타/Data Engineering

[데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI

2022. 8. 10. 13:28

Big Data, 분산처리

👋 들어가기전

  • 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~

 

2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

 

[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목

inhwanjeong.tistory.com

 

 

🚨 급한사람!!  이거만 보세요

  • 데이터엔지니어, 빅데이터처리는 클라우드와 분산시스템의 발전에 따라 여러 서버와 대규모 데이터를 효율적으로 처리하기 위해 탄생하였음.
  • 빅데이터: 대규모 데이터를 보존 및 집계하기 위해 Hadoop과 Hive를 사용하게 되었고, 이때 사용하게 된 키워드가 빅데이터이다
    • 빅데이터라는 단어가 대중들에게 널리 전파된것은 2011년~2012년 쯤 분산처리기술을 여러 회사에서 도입했을때 부터 이다.
  • 🌟빅데이터 필요이유
    • 새로운 가치 창출 
    • 의사결정을 위해 이용
  • 빅데이터 처리 중요 이유(어려운 이유)
    • 데이터의 분석방법을 모름.
    • 데이터를 처리하기 위해서는 많은 물리적인 시간과 인력이 들어감
  • 빅데이터 처리방법(초기)
    • NoSQL - 자주일어나는 읽기/쓰기 분산처리
      • RDB 제약을 제거하는 목표의 데이터베이스
      • 키 밸류 스토어(redis), 도큐멘트 스토어(json 저장, mongoDB), 와이드 칼럼 스토어(여러키 제공, Cassandra)
    • Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리
      • Hadoop: 초기 하둡에서 데이터처리를 위해 Java로 프로그래밍을 해야했음
      • Hive: SQL과 같은 쿼리언어로 하둡을 실행시키기 위해 개발됨.
      • Apache Spark: 더 높은 효율과 편리성을 위해 개발
    • Hadoop과 NoSQL을 조합하여 현실적인 비용으로 대규모 데이터 처리 실현
                     ----->  RDB(mysql)
웹서버                                                           ----->  Hadoop         ----->  데이터 웨어하우스
                     -----> NoSQL(mongodb)

 

 

1. 데이터 처리를 위한 클라우드 서비스

  • 데이터 처리 프로세스를 손쉽고 빠르게 구축 가능
  • 클라우드를 위한 Hadoop
    • Amazon Elastic MapReduce
    • Azure HDInsight
  • 데이터 웨어하우스
    • 구글 BigQuery
    • Amazon Redshift

 

2. 데이터 디스커버리

  • 데이터 디스커버리: 데이터 웨어하우스에 저장된 데이터를 시각화
  • BI 도구(Bussiness Intelligence tool): 데이터 디스커버리를 위한 셀프서비스용 BI도구

 

'기타 > Data Engineering' 카테고리의 다른 글

[데이터 엔지니어] BI도구, 모니터링  (0) 2022.08.11
[데이터 엔지니어] 데이터 처리  (0) 2022.08.11
[데이터 엔지니어] 데이터 파이프라인  (0) 2022.08.10
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크  (0) 2022.08.09
    '기타/Data Engineering' 카테고리의 다른 글
    • [데이터 엔지니어] BI도구, 모니터링
    • [데이터 엔지니어] 데이터 처리
    • [데이터 엔지니어] 데이터 파이프라인
    • [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
    inanJeong
    inanJeong
    저작권 문제시 이메일 발송 부탁드립니다.(해당 게시글 바로 내리겠습니다.) ghjklla007@naver.com

    티스토리툴바