[빅데이터] - 정형, 비정형 데이터 마이닝

1. 데이터 마이닝 개요

데이터 마이닝 개요

- 데이터 마이닝

- 데이터베이스에서의 지식발견

- 지식 추출

- 정보 수확

- 정보 고고학

- 데이터 패턴 프로세싱

-> 거대한 양의 데이터 속에서 쉽게 들어나지 않는 유용한 정보를 찾아내는 과정

-> 기업이 사용 가능한 원천 데이터를 기반으로 감춰진 지식, 경향, 규칙 등을 발견하고 이를 실제 비지니스 의사결정 등에 활용하고자 하는 일련의 작업

데이터 마이닝 6가지 기능

- 1) 분류 (Classification)

- 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것을 의미

- 2) 추정 (Estimation)

- 연속된 변수의 값을 추정 / 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정

- 3) 예측 (Prediction)

- 미래의 양상을 예측하거나 미래의 값을 추정한다는 것을 제외하면 분류나 추정과 동일한 의미

- 4) 연관분석 (Association Analysis)

- '같이 팔리는 물건'과 같이 아이템의 연관성을 파악하는 분석

- 5) 군집 (Clustering)

- 이질적인 모집단을 동질성을 지닌 그룹 별로 세분화

- 시장 세분화의 첫 단계로써 판촉 활동 반응률이 높은 고객 선별, 구매습관이 유사한 사람들 군집화

- 6) 기술 (Description)

- 데이터가 암시하는 바를 설명 가능해야 하며 설명에 대한 답을 찾을 수 있어야 함

- 데이터마이닝의 기능을 추진하기 위한 5단계

1. 목적 정의 : 데이터마이닝 목적 / 기법 정의

2. 데이터 준비

3. 데이터 가공 : 기법에 적용이 가능하도록 가공

4. 데이터 마이닝 기법의 적용

5. 검증

2. 분류 분석

분류 분석

- 분류 분석

데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법

- 분류 분석의 목적

반응변수가 알려진 다변량자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행

- 분류 모델링

- 신용평가모형 / 사기방지모형 / 이탈모형

- 분류 기법

- 엄청 많음

- 분류 분석 vs 예측 분석

- 공통점 : 레코드의 특정 속성의 값을 미리 알아 맞힘

- 차이점 : 레코드의 범주형 속성 값을 맞히는 것 / 연속형 속성

- 분류 예 : 내신등급 / 신용등급 등

- 예측 예 : 수능점수 예측 / 연 매출액 예측

분류 분석 - 로지스틱 회귀모형

- 로지스틱 회귀모형

- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 분류하는 목적으로 활용

사후 확률 : 적합을 통해 추정된 확률

분류 분석 - 신경망 모형

- 신경망 모형(ANN)

- 인공신경망

- 인공신경망의 학습

-> 가중치 조정방식

- 단층 신경망

- 입력층이 은닉층을 거치지 않고 직접 출력층에 연결되는 구조

- 퍼셉트론으로 불리기도 함

- 다층 신경망

- 입력층 - 은닉층(들) - 출력층으로 구성

- 은닉층이 2개 이상 = 심층신경망

분류 분석 - 의사결정나무 모형

- 의사결정나무

- 의사결정의 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법

- 목표변수가 이산형인 경우 -> 분류나무

- 목표변수가 연속형인 경우 -> 회귀나무

- 활용

세분화,분류, 등

- 특징

설명이 쉽다

분류 분석 - 앙상블 모형

- 앙상블

- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도 높이는 방법

- 배깅

- 주어진 자료에서 여러 개 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종예측모형을 만드는 방법

- 부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측모형들을 만드는 방법

- 훈련오차를 빠르고 쉽게 줄임

- 랜덤 포레스트

- 분산이 큰 의사결정나무를 고려 -> 무작위성을 늘림

분류 분석 - 모형평가

- 분석 모형의 평가

- 임의의 모형 보다 더 우수한 분류 성과를 보이는지 등.. 비교 분석하는 과정

- 모델 평가의 기준

일반화의 가능성

안정적인 결과

효율성

적은 입력변수를 필요로 할수록 효율 높음

예측과 분류의 정확성

정확성 측면

3. 군집 분석

군집 분석

- 군집 분석 개요

- 객채들의 유사성 측정, 유사성이 높은 대상 집단 분류, 유사성 및 상이성 규명

- 특성에 따라 객체들을 여러 개의 배타적인 집단으로 나눔

- 군집 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화

- 군집분석의 특징

요인분석과의 차이 : 유사한 변수를 함께 묶어줌

판별분석과의 차이 : 새로운 데이터를 기존 집단에 할당하는 것이 목적

군집 분석 - 계층적 군집

- 계층적 군집

- n개의 군집으로 시작해 개수를 줄여나가는 방법

- 계층적 군집을 형성하는 방법

- 병합적 방법 : 작은군집 -> 큰 군집 병합

- 분할적 방법 : 큰 군집 -> 군집 분리

- 계층적 군집 수행 시 두 군집 간 거리 측정 방법

- 최단 연결법 / 단일 연결법

- 최장 연결법 / 완전 연결법

- 중심 연결법

- 평균 연결법

- 와드 연결법

군집 분석 - K-평균 군집

- K-평균 군집

- 비 계층적 군집

- K-평균 군집분석

- K-평균 군집분석의 특징

군집 분석 - 혼합 분포 군집

- 혼합 분포 군집

- 모형 기반 군집방법

군집 분석 - SOM

- 자기조직화지도 - SOM

- 신경망 사용

4. 연관 분석

연관 분석

- 연관 규칙

연관규칙의 개념

연관분석의 측도 3가지

- 지지도

- 신뢰도

- 향상도

연관규칙의 절차

최소지지도 결정

개별 품목 중 최소지지도를 넘는 품목 분류

2가지 품목 집합 생성

반복적으로 수행하여 빈발품목 집합을 찾음

연관규칙의 장점

- 탐색적 기법

- 강력한 비목적성분석 기법

- 사용이 편리한 분석 데이터 형태

- 계산의 용이성

연관규칙의 단점

- 상당한 수의 계산과정

- 적절한 품목 결정

- 품목의 비율 차이

순차 패턴

연관성 분석 활용방안

5. 비정형 데이터마이닝

정형 / 비정형 데이터마이닝

- 데이터 관리 및 분석과 의미 도출

- 비정형 데이터 분석 기법

텍스트 마이닝

- 텍스트 마이닝

텍스트 형태로 이루어진 반정형, 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출, 가공을 목적으로 하는 기술

- 텍스트 마이닝의 응용

- 텍스트 마이닝 수행 단계

1. 텍스트문서 선정

2. 텍스트 전처리 단계

3. 의미정보 변환 단계

4. 의미정보 추출 단계

5. 패턴 및 경향분석 단계

6. 정보표현 및 평가 단계

- 텍스트 마이닝과 데이터 마이닝 비교

- 텍스트 마이닝의 문제점

1. 자연어에 영향을 상당히 많이 받는다

2. 분서 결과물 자체로 어떤 성과를 보기 힘들다

- 자연어 처리

인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술

- 자연어 처리 도구와 기술

형태소 분석기 / 구문 분석기 / 화행 분석기 / 대화처리 분석기 등

- 자동 문서 분류

- 키워드 기반 연관분석

빈번하게 발생하는 키워드의 집합이나 용어에서 연관성이나 상호관계를 발견하는 것

오피니언 마이닝

- 오피니언 마이닝

텍스트 마이닝에서 발전된 기법

- 특정 주제나 대상에서 보인 사람들의 주관적이고 감정적인 의견

오피니언이 포함된 빅데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 이용하여 특정 주제에 보인 의견에 대한 선호도를 판별하는 기술

- 선호도 : 긍정 / 부정 / 중립

- 오피니언 마이닝 수행 단계

1. 특징 추출

2. 의견 분류

3. 요약 및 전달

- 오피니언 마이닝의 활용

여론 방향 추적

웹 마이닝

- 웹 마이닝

웹을 대상으로..

- 분석 대상에 따른 웹 마이닝의 구분

웹 구조 마이닝

- 웹사이트의 노드와 연결구조 분석

- 하이퍼링크로부터 패턴, 웹페이지 구조 분석

웹 사용 마이닝

- 웹 서버 로그파일 분석

웹 콘텐츠 마이닝

- 저장된 콘텐츠 분석

'Coding > R & 빅데이터' 카테고리의 다른 글

[빅데이터] - 통계 분석 (0)	2020.06.23
[빅데이터] - 데이터 분석 (0)	2020.06.23
[빅데이터] - R 기초 (2)	2020.06.22

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31