👋 들어가기전
- 데이터엔지니어, 빅데이터 전반적인 지식을 다음 페이지에 모아두고 있습니다. 필요시 확인하세요~
2022.08.09 - [Data Engineering/Data Engineering] - [데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크
🚨 급한사람!! 이거만 보세요
- 🌟데이터 처리(data process): 데이터 처리는 데이터 수집(실시간, 크롤링, 큰 덩어리 데이터 등), 데이터 가공(extract)를 할때 필요한 기술이다.
- 데이터 처리 방법: 스크립트 언어인 python과 R이 많이 사용됨
- 🌟데이터 프레임(data frame): 데이터 프레임은 표 형태의 데이터를 추상화 한 객체이다
- 대표적인 데이터 프레임은 스프레드시트, 데이터베이스가 있다.
- 분석하기 어려운 Text, Json, Csv 파일을 데이터 프레임을 변환하고 활용하면 어렵지 않게 사용할 수 있다.
- 데이터 프레임 처리 도구 (e.g. python 모듈인 pandas)
1. 데이터 프레임
- 데이터 프레임은 2차원 배열 데이터를 다음과 같이 표 형태로 확인 및 처리할 수 있다.
import pandas as pd pd.
DataFrame([['2022-08-11', 1, 'test'],['2022-08-12', 2, 'test2']])
Out[4]:
0 12
0 2022-08-11 1 test
1 2022-08-12 2 test2
2. 로그 데이터 처리
- 다음과 같은 로그 데이터 같은 경우 곧바로 데이터를 처리할 수 없다.
Jul 18 03:24:01 web-server run-parts(/etc/cron.daily)[47942]: finished logrotate
Jul 18 03:24:01 web-server run-parts(/etc/cron.daily)[47921]: starting man-db.cron
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47953]: finished man-db.cron
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47921]: starting mlocate
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47964]: finished mlocate
Jul 18 03:24:02 web-server run-parts(/etc/cron.daily)[47921]: starting rhsmd
Jul 18 03:29:02 web-server run-parts(/etc/cron.daily)[48122]: finished rhsmd
- 하지만 데이터 프레임을 이용해 처리한다면 원하는 대로 처리 및 저장할 수 있다.
3. 시계열 데이터 처리
- 데이터 프레임에서는 시계열 데이터도 손쉽게 처리할 수있다.
df = pd.DataFrame(logs, columns=['time', 'server', 'descriptions'])
df = df.set_index('time')
df['Jul 18 03:24:01': 'Jul 18 03:24:02']
- 범위 밖인 Jul 18 03:29:02 데이터는 출력되지 않는것을 확인할 수 있다.
'기타 > Data Engineering' 카테고리의 다른 글
[데이터 엔지니어] BI도구, 모니터링 (0) | 2022.08.11 |
---|---|
[데이터 엔지니어] 데이터 파이프라인 (0) | 2022.08.10 |
[데이터 엔지니어] 빅데이터 개요 — 분산시스템, 비즈니스, BI (0) | 2022.08.10 |
[데이터 엔지니어] 데이터 엔지니어, 빅데이터 다수의 링크 (0) | 2022.08.09 |