inanJeong
이난's 프로그래밍 지식 사이트
inanJeong
전체 방문자
오늘
어제
  • 분류 전체보기 (83)
    • 회고록 및 개발일기 (4)
    • Advanced (0)
    • Python (18)
      • 파이썬 기초 (0)
      • 파이썬스럽게 개발하기 (6)
      • Django (5)
      • 고성능 파이썬 (0)
      • matplotlib (3)
      • Error (4)
    • 기타 (61)
      • Shell Script (2)
      • 라즈베리파이 (5)
      • 티스토리 꾸미기 (2)
      • 알고리즘 (2)
      • 소프트웨어 개발론 (0)
      • JIRA(프로젝트 관리 도구) (1)
      • git (1)
      • Swagger (1)
      • docker (2)
      • web_server (2)
      • MySQL (2)
      • front_end (3)
      • javascripts(typescript + ES.. (5)
      • ServerSideApplication (1)
      • Data Engineering (5)
      • flutter (2)
      • JSP (10)
      • Spring boot (5)
      • React (3)
      • elasticSearch (1)
      • AWS (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

인기 글

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
inanJeong

이난's 프로그래밍 지식 사이트

[데이터 엔지니어] 데이터 처리
기타/Data Engineering

[데이터 엔지니어] 데이터 처리

2022. 8. 11. 13:04

Big Data, 분산처리

👋 들어가기전

  • 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~

 

2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

 

[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크

※ 링크가 없을 경우 아직 작성 전 입니다. 🌈. 링크 모음 🌟데이터 엔지니어 로드맵 데이터 엔지니어 쿡북 코드너리 - 국내 기술 아키텍처 AI-Hub - 국내 무료 데이터셋 BI 도구 tableau-public 📖. 목

inhwanjeong.tistory.com

 

 

🚨 급한사람!!  이거만 보세요

  • 🌟데이터 처리(data process): 데이터 처리는 데이터 수집(실시간, 크롤링, 큰 덩어리 데이터 등), 데이터 가공(extract)를 할때 필요한 기술이다.
  • 데이터 처리 방법: 스크립트 언어인 python과 R이 많이 사용됨
  • 🌟데이터 프레임(data frame): 데이터 프레임은 표 형태의 데이터를 추상화 한 객체이다
    • 대표적인 데이터 프레임은 스프레드시트, 데이터베이스가 있다.
    • 분석하기 어려운 Text, Json, Csv 파일을 데이터 프레임을 변환하고 활용하면 어렵지 않게 사용할 수 있다.
    • 데이터 프레임 처리 도구 (e.g. python 모듈인 pandas)

 

1. 데이터 프레임

  • 데이터 프레임은 2차원 배열 데이터를 다음과 같이 표 형태로 확인 및 처리할 수 있다.
import pandas as pd pd.
DataFrame([['2022-08-11', 1, 'test'],['2022-08-12', 2, 'test2']])
Out[4]:
0 12
0 2022-08-11 1 test
1 2022-08-12 2 test2

2. 로그 데이터 처리

  • 다음과 같은 로그 데이터 같은 경우 곧바로 데이터를 처리할 수 없다.
Jul 18 03:24:01 web-server run-parts(/etc/cron.daily)[47942]: finished logrotate
Jul 18 03:24:01 web-server run-parts(/etc/cron.daily)[47921]: starting man-db.cron
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47953]: finished man-db.cron
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47921]: starting mlocate
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47964]: finished mlocate
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47921]: starting rhsmd
Jul 18 03:29:02 web-server run-parts(/etc/cron.daily)[48122]: finished rhsmd
  • 하지만 데이터 프레임을 이용해 처리한다면 원하는 대로 처리 및 저장할 수 있다.

 

3. 시계열 데이터 처리

  • 데이터 프레임에서는 시계열 데이터도 손쉽게 처리할 수있다.
df = pd.DataFrame(logs, columns=['time', 'server', 'descriptions'])
df = df.set_index('time')
df['Jul 18 03:24:01': 'Jul 18 03:24:02']
  • 범위 밖인 Jul 18 03:29:02 데이터는 출력되지 않는것을 확인할 수 있다.

'기타 > Data Engineering' 카테고리의 다른 글

[데이터 엔지니어] BI도구, 모니터링  (0) 2022.08.11
[데이터 엔지니어] 데이터 파이프라인  (0) 2022.08.10
[데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI  (0) 2022.08.10
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크  (0) 2022.08.09
    '기타/Data Engineering' 카테고리의 다른 글
    • [데이터 엔지니어] BI도구, 모니터링
    • [데이터 엔지니어] 데이터 파이프라인
    • [데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI
    • [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
    inanJeong
    inanJeong
    저작권 문제시 이메일 발송 부탁드립니다.(해당 게시글 바로 내리겠습니다.) ghjklla007@naver.com

    티스토리툴바