본문 바로가기

Coding/R & 빅데이터

[빅데이터] - 데이터 분석

데이터 마트

- 데이터 마트란?

    데이터의 한 부분

    특정 사용자가 관심을 갖는 데이터를 담음

R reshape를 활용한 데이터 마트 개발

- reshape란

    데이터 재정렬을 위한 기법중 하나

- reshape 패키지

- melt : 데이터를 DB 구조로 녹이는 함수

- cast : 새로운 구조로 데이터를 만드는 함수

sqldf를 이용한 데이터 분석

- sqldf 패키지

    sqldf는 R에서 표준 SQL에서 사용되는 문장을 사용하게 해 줌

plyr

- plyr 패키지

    데이터를 분리하고 처리한 다음, 다시 결합하는 등 가장 필수적인 데이터 처리 기능 제공

    ??ply 형태, a(배열), d(데이터프레임), l(리스트)로 구분

데이터 테이블 - data.table

큰 데이터를 탐색, 연산, 병합 하는 데 유용한 데이터 핸들링 패키지

그룹화, 순서화, 짧은 문장 지원 측면에서 편리

- data.table 패키지

 

---

결측값 처리와 이상값 검색

---

데이터 탐색

분석하기 전 데이터의 특성 파악, 데이터 통찰 얻기 위해 다각도 접근

- 데이터 기초 통계

결측값 처리

Missing data

- 결측값 확인방법과 제외 방법

이상값 검색

outlier

- 이상값 인식 방법

- 이상값 처리

'Coding > R & 빅데이터' 카테고리의 다른 글

[빅데이터] - 정형, 비정형 데이터 마이닝  (0) 2020.06.23
[빅데이터] - 통계 분석  (0) 2020.06.23
[빅데이터] - R 기초  (2) 2020.06.22