1. 통계학 개론
통계학 역사
- 어원 분석
국가라는 의미의 Status
총조사 = Censere라는 라틴어에서 유래
통계 분석 개요
- 통계학의 정의
산술적 방법 기초, 다량의 데이터를 관찰 -> 자료로부터 유용한 정보 이끌어 냄
자료의 수집과 정리 / 해석방법 모두 포함
기술통계학 / 추측 통계학
- 모집단과 표본
모집단 : 우리가 알고자 하는 전체
원소 : 모집단을 구성하는 개체
- 표본추출의 방법
일부를 추출해 자료 수집
단순랜덤추출법
- 복원, 비복원 추출 : 임의의 n개를 추출하는 방법
-> 각 샘플은 선택될 확률 동일
계통 추출법
- 단순랜덤추출 변형
집락추출법
- 군집 구분
충화추출법
- 각 계층을 고류 대표할 수 있게 만듬
- 자료의 종류
명목척도, 순서척도 => 질적 자료
구간척도, 비율척도 => 양적 자료
명목척도
측정 대상이 어느 집단에 속하는지 분류
순서척도
측정 대상의 특성이 가지는 서열관계 관측
구간척도
구간의 간격의 의미가 있는지
비율척도
0 값을 제외하고 모든 사칙연산 가능
기초 통계 분석
- 통계 분석이란?
특정집단 / 불확실한 현상 대상 정보 구하고, 의사결정
통계적 추론 / 추측통계
수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것
- 모수측정
- 가설 검정
- 예측
기술 통계
수집된 자료를 정리/요약하기 위해 사용되는 기초적인 통계
주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정 배제
확률 및 확률분포
- 확률의 정의
'특정한 사건이 일어날 가능성의 척도'
- 확률변수와 확률분포
특정값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률변수
- 베르누이 확률분포
- 이항분포
- 기하 분포
- 다항 분포
- 포아송 분포
연속형 확률변수
- 균일 분포
- 정규 분포
- t분포
- X^2(카이제곱) 분포
- F분포
추정과 가설검정
- 추정의 개요
표본으로부터 미지의 모수를 추측하는 것
점추정
모수가 특정한 값일 것이라고 추정
구간 추정
모수가 특정한 구간에 있을 것이라고 선언
- 가설검정
모집단에 대한 가설 설정 후 표본관찰을 통해 가설의 채택여부를 결정하는 분석방법
비모수 검정
- 비모수 검정 vs 모수 검정
모집단 분포에 대해 제약을 가하지 않고 검정 실시
관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우
2. 기초 통계 분석
기술 통계
- 기술 통계
자료를 요약하는 기초 통계를 의미
자료의 특성을 표/그림/통계량 등으로 정리 요약하여 쉽게 파악, 기초적인 통계로 사용
- 통계량에 의한 자료정리
- 그래프를 이용한 자료 정리
회귀 분석
- 회귀 분석 개요
독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법
변수들 사이 인과관계 밝힘
회귀분석변수
- 영향을 받는 변수
- 영향을 주는 변수
회귀분석의 검정
3. 다변량 분석
상관 분석
- 상관분석
두 변수 간의 관계 알아보기
- 피어슨 상관계수
두 변수 간의 관련성 구하기 위해 보편적으로 사용
- 스피어만 상관계수
데이터가 서열척도인 경우 사용
다차원 척도법
- 다차원 척도법
대상 간 거리 주어져 있을 때, 대상들을 동일한 상태적 거리를 가진 실수 공간의 점들로 배치
시각화 방법의 근간으로 사용
주성분 분석
- 주성분 분석
고차원 자료 -> 저차원 자료
4. 시계열 예측
시계열 자료
시간의 흐름에 따라 관측된 자료
정상성
시점에 상관없이 시계열의 특성이 일정하다는 것을 의미
-정상성의 조건
- 평균 일정
- 분산이 시점에 의존X
- 공분산은 단지 시차에만 의존, 시점 자체에는 의존 X
시계열 자료의 형태와 성분
- 시계열 그림
시간의 경과에 따라 시계열 자료의 값이 변하는 것을 그린 그림
- 시계열 자료의 성분
- 불규칙 성분
- 체계적 성분
시계열 분석법 및 모형
- 시계열 자료의 분석 목적
1) 예측 목적을 주로 사용되는 방법
2) 시스템의 이해와 제어의 목적으로 주로 사용되는 방법
- 적용 분야에 따른 두 가지 접근법
1) 진동수 영역에서의 분석법
2) 시간 영역에서의 분석법
- 분석 모형의 구분
1) 결정 모형 또는 확정 모형
2) 확률 모형
- 예측 모형의 종류
1) 주관적인 모형
2) 객관적인 모형
- 모형적합의 3단계 및 예측 시스템
1) 모형적합 3단계
모형의 식별
모형의 추정
모형의 진단
2) 예측단계
모형수립단계
예측단계
- 예측 방법의 선택기준
- 기준
1. 어느 정도의 정확성?
2. 예측하고자 하는 기간의 길이
3. 어느정도 복잡?
4. 이용가능한 자료 종류
'Coding > R & 빅데이터' 카테고리의 다른 글
[빅데이터] - 정형, 비정형 데이터 마이닝 (0) | 2020.06.23 |
---|---|
[빅데이터] - 데이터 분석 (0) | 2020.06.23 |
[빅데이터] - R 기초 (2) | 2020.06.22 |