본문 바로가기

코딩/R & 빅데이터

[빅데이터] - 통계 분석

1. 통계학 개론

 

통계학 역사

- 어원 분석

    국가라는 의미의 Status

    총조사 = Censere라는 라틴어에서 유래

통계 분석 개요

- 통계학의 정의

    산술적 방법 기초, 다량의 데이터를 관찰 -> 자료로부터 유용한 정보 이끌어 냄

    자료의 수집과 정리 / 해석방법 모두 포함

    기술통계학 / 추측 통계학

- 모집단과 표본

    모집단 : 우리가 알고자 하는 전체

    원소 : 모집단을 구성하는 개체

- 표본추출의 방법

    일부를 추출해 자료 수집

    단순랜덤추출법

       - 복원, 비복원 추출 : 임의의 n개를 추출하는 방법

       -> 각 샘플은 선택될 확률 동일

    계통 추출법 

       - 단순랜덤추출 변형

    집락추출법

       - 군집 구분

    충화추출법

       - 각 계층을 고류 대표할 수 있게 만듬

- 자료의 종류

    명목척도, 순서척도 => 질적 자료

    구간척도, 비율척도 => 양적 자료

   

    명목척도

       측정 대상이 어느 집단에 속하는지 분류

    순서척도

        측정 대상의 특성이 가지는 서열관계 관측

    구간척도

        구간의 간격의 의미가 있는지

    비율척도

       0 값을 제외하고 모든 사칙연산 가능

 

기초 통계 분석

- 통계 분석이란?

    특정집단 / 불확실한 현상 대상 정보 구하고, 의사결정

    통계적 추론 / 추측통계

        수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것

       - 모수측정

       - 가설 검정

       - 예측

    기술 통계

        수집된 자료를 정리/요약하기 위해 사용되는 기초적인 통계

        주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정 배제

확률 및 확률분포

- 확률의 정의

    '특정한 사건이 일어날 가능성의 척도'

- 확률변수와 확률분포

    특정값이 나타날 가능성이 확률적으로 주어지는 변수

    이산형 확률변수

        - 베르누이 확률분포

        - 이항분포

        - 기하 분포

        - 다항 분포

        - 포아송 분포

    연속형 확률변수

        - 균일 분포

        - 정규 분포

        - t분포

        - X^2(카이제곱) 분포

        - F분포

추정과 가설검정

- 추정의 개요

    표본으로부터 미지의 모수를 추측하는 것

    점추정

        모수가 특정한 값일 것이라고 추정

    구간 추정

        모수가 특정한 구간에 있을 것이라고 선언

- 가설검정

    모집단에 대한 가설 설정 후 표본관찰을 통해 가설의 채택여부를 결정하는 분석방법

비모수 검정

- 비모수 검정 vs 모수 검정

    모집단 분포에 대해 제약을 가하지 않고 검정 실시

    관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우

 

2. 기초 통계 분석

 

기술 통계

- 기술 통계

    자료를 요약하는 기초 통계를 의미

    자료의 특성을 표/그림/통계량 등으로 정리 요약하여 쉽게 파악, 기초적인 통계로 사용

    

    - 통계량에 의한 자료정리

    - 그래프를 이용한 자료 정리

회귀 분석

- 회귀 분석 개요

    독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법

    변수들 사이 인과관계 밝힘

    

    회귀분석변수

       - 영향을 받는 변수

       - 영향을 주는 변수

    회귀분석의 검정

 

3. 다변량 분석

 

상관 분석

- 상관분석

    두 변수 간의 관계 알아보기

- 피어슨 상관계수

    두 변수 간의 관련성 구하기 위해 보편적으로 사용

- 스피어만 상관계수

    데이터가 서열척도인 경우 사용

다차원 척도법

- 다차원 척도법

    대상 간 거리 주어져 있을 때, 대상들을 동일한 상태적 거리를 가진 실수 공간의 점들로 배치

    시각화 방법의 근간으로 사용

주성분 분석

- 주성분 분석

    고차원 자료 -> 저차원 자료

 

4. 시계열 예측

시계열 자료

    시간의 흐름에 따라 관측된 자료

정상성

시점에 상관없이 시계열의 특성이 일정하다는 것을 의미

-정상성의 조건

    - 평균 일정

    - 분산이 시점에 의존X

    - 공분산은 단지 시차에만 의존, 시점 자체에는 의존 X

 

시계열 자료의 형태와 성분

- 시계열 그림

    시간의 경과에 따라 시계열 자료의 값이 변하는 것을 그린 그림

- 시계열 자료의 성분

    - 불규칙 성분

    - 체계적 성분

시계열 분석법 및 모형

- 시계열 자료의 분석 목적

    1) 예측 목적을 주로 사용되는 방법

    2) 시스템의 이해와 제어의 목적으로 주로 사용되는 방법

- 적용 분야에 따른 두 가지 접근법

    1) 진동수 영역에서의 분석법

    2) 시간 영역에서의 분석법

- 분석 모형의 구분

    1) 결정 모형 또는 확정 모형

    2) 확률 모형

- 예측 모형의 종류

    1) 주관적인 모형

    2) 객관적인 모형

- 모형적합의 3단계 및 예측 시스템

    1) 모형적합 3단계

        모형의 식별

        모형의 추정

        모형의 진단

    2) 예측단계

        모형수립단계

        예측단계

- 예측 방법의 선택기준

    - 기준

       1. 어느 정도의 정확성?

       2. 예측하고자 하는 기간의 길이

       3. 어느정도 복잡?

       4. 이용가능한 자료 종류

'코딩 > R & 빅데이터' 카테고리의 다른 글

[빅데이터] - 정형, 비정형 데이터 마이닝  (0) 2020.06.23
[빅데이터] - 통계 분석  (0) 2020.06.23
[빅데이터] - 데이터 분석  (0) 2020.06.23
[빅데이터] - R 기초  (2) 2020.06.22

태그