본문 바로가기

Coding/R & 빅데이터

[빅데이터] - 정형, 비정형 데이터 마이닝

1. 데이터 마이닝 개요

 

데이터 마이닝 개요

- 데이터 마이닝

    - 데이터베이스에서의 지식발견

    - 지식 추출

    - 정보 수확

    - 정보 고고학

    - 데이터 패턴 프로세싱

 

-> 거대한 양의 데이터 속에서 쉽게 들어나지 않는 유용한 정보를 찾아내는 과정

-> 기업이 사용 가능한 원천 데이터를 기반으로 감춰진 지식, 경향, 규칙 등을 발견하고 이를 실제 비지니스 의사결정 등에 활용하고자 하는 일련의 작업

데이터 마이닝 6가지 기능

- 1) 분류 (Classification)

    - 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것을 의미

- 2) 추정 (Estimation)

    - 연속된 변수의 값을 추정 / 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정

- 3) 예측 (Prediction)

    - 미래의 양상을 예측하거나 미래의 값을 추정한다는 것을 제외하면 분류나 추정과 동일한 의미

- 4) 연관분석 (Association Analysis)

    - '같이 팔리는 물건'과 같이 아이템의 연관성을 파악하는 분석

- 5) 군집 (Clustering)

    - 이질적인 모집단을 동질성을 지닌 그룹 별로 세분화

    - 시장 세분화의 첫 단계로써 판촉 활동 반응률이 높은 고객 선별, 구매습관이 유사한 사람들 군집화

- 6) 기술 (Description)

    - 데이터가 암시하는 바를 설명 가능해야 하며 설명에 대한 답을 찾을 수 있어야 함

- 데이터마이닝의 기능을 추진하기 위한 5단계

    1. 목적 정의 : 데이터마이닝 목적 / 기법 정의

    2. 데이터 준비

    3. 데이터 가공 : 기법에 적용이 가능하도록 가공

    4. 데이터 마이닝 기법의 적용

    5. 검증

 

 

2. 분류 분석

 

분류 분석

- 분류 분석

    데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법

- 분류 분석의 목적

    반응변수가 알려진 다변량자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행

- 분류 모델링

    - 신용평가모형 / 사기방지모형 / 이탈모형

- 분류 기법

    - 엄청 많음

- 분류 분석 vs 예측 분석

    - 공통점 : 레코드의 특정 속성의 값을 미리 알아 맞힘

    - 차이점 : 레코드의 범주형 속성 값을 맞히는 것 / 연속형 속성

    - 분류 예 : 내신등급 / 신용등급 등

    - 예측 예 : 수능점수 예측 / 연 매출액 예측

분류 분석 - 로지스틱 회귀모형

- 로지스틱 회귀모형

    - 반응변수가 범주형인 경우에 적용되는 회귀분석 모형    

       새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 분류하는 목적으로 활용

       사후 확률 : 적합을 통해 추정된 확률

분류 분석 - 신경망 모형

- 신경망 모형(ANN)

    - 인공신경망

    - 인공신경망의 학습

        -> 가중치 조정방식

- 단층 신경망

    - 입력층이 은닉층을 거치지 않고 직접 출력층에 연결되는 구조

    - 퍼셉트론으로 불리기도 함

- 다층 신경망

    - 입력층 - 은닉층(들) - 출력층으로 구성

    - 은닉층이 2개 이상 = 심층신경망

분류 분석 - 의사결정나무 모형

- 의사결정나무

    - 의사결정의 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법

    - 목표변수가 이산형인 경우 -> 분류나무

    - 목표변수가 연속형인 경우 -> 회귀나무

    - 활용

       세분화,분류, 등

    - 특징

        설명이 쉽다

분류 분석 - 앙상블 모형

- 앙상블

    - 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도 높이는 방법

    - 배깅

       - 주어진 자료에서 여러 개 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종예측모형을 만드는 방법

    - 부스팅

       - 예측력이 약한 모형들을 결합하여 강한 예측모형들을 만드는 방법

       - 훈련오차를 빠르고 쉽게 줄임

    - 랜덤 포레스트

       - 분산이 큰 의사결정나무를 고려 -> 무작위성을 늘림

분류 분석 - 모형평가

- 분석 모형의 평가

    - 임의의 모형 보다 더 우수한 분류 성과를 보이는지 등.. 비교 분석하는 과정

    - 모델 평가의 기준

        일반화의 가능성

            안정적인 결과

        효율성

            적은 입력변수를 필요로 할수록 효율 높음

        예측과 분류의 정확성

            정확성 측면

 

3. 군집 분석

 

군집 분석

- 군집 분석 개요

    - 객채들의 유사성 측정, 유사성이 높은 대상 집단 분류, 유사성 및 상이성 규명

    - 특성에 따라 객체들을 여러 개의 배타적인 집단으로 나눔

    - 군집 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화

    - 군집분석의 특징

        요인분석과의 차이 : 유사한 변수를 함께 묶어줌

        판별분석과의 차이 : 새로운 데이터를 기존 집단에 할당하는 것이 목적

군집 분석 - 계층적 군집

- 계층적 군집

    - n개의 군집으로 시작해 개수를 줄여나가는 방법

    - 계층적 군집을 형성하는 방법

        - 병합적 방법 : 작은군집 -> 큰 군집 병합

        - 분할적 방법 : 큰 군집 -> 군집 분리

 

    - 계층적 군집 수행 시 두 군집 간 거리 측정 방법

        - 최단 연결법 / 단일 연결법

        - 최장 연결법 / 완전 연결법

        - 중심 연결법

        - 평균 연결법

        - 와드 연결법

군집 분석 - K-평균 군집

- K-평균 군집

    - 비 계층적 군집

    - K-평균 군집분석

    - K-평균 군집분석의 특징

군집 분석 - 혼합 분포 군집

- 혼합 분포 군집

    - 모형 기반 군집방법

군집 분석 - SOM

- 자기조직화지도 - SOM

    - 신경망 사용

 

4. 연관 분석

 

연관 분석

- 연관 규칙

    연관규칙의 개념

    연관분석의 측도 3가지

 

        - 지지도

        - 신뢰도

        - 향상도

 

    연관규칙의 절차

        최소지지도 결정

        개별 품목 중 최소지지도를 넘는 품목 분류

        2가지 품목 집합 생성

        반복적으로 수행하여 빈발품목 집합을 찾음

    연관규칙의 장점

       - 탐색적 기법

       - 강력한 비목적성분석 기법

       - 사용이 편리한 분석 데이터 형태

       - 계산의 용이성

    연관규칙의 단점

       - 상당한 수의 계산과정

       - 적절한 품목 결정

       - 품목의 비율 차이

 

    순차 패턴

 

    연관성 분석 활용방안

 

 

5. 비정형 데이터마이닝

 

정형 / 비정형 데이터마이닝

- 데이터 관리 및 분석과 의미 도출

- 비정형 데이터 분석 기법

텍스트 마이닝

- 텍스트 마이닝

    텍스트 형태로 이루어진 반정형, 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출, 가공을 목적으로 하는 기술

- 텍스트 마이닝의 응용

 

- 텍스트 마이닝 수행 단계

    1. 텍스트문서 선정

    2. 텍스트 전처리 단계

    3. 의미정보 변환 단계

    4. 의미정보 추출 단계

    5. 패턴 및 경향분석 단계

    6. 정보표현 및 평가 단계

- 텍스트 마이닝과 데이터 마이닝 비교

    

- 텍스트 마이닝의 문제점

    1. 자연어에 영향을 상당히 많이 받는다

    2. 분서 결과물 자체로 어떤 성과를 보기 힘들다

- 자연어 처리

    인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술

- 자연어 처리 도구와 기술

    형태소 분석기 / 구문 분석기 / 화행 분석기 / 대화처리 분석기 등

- 자동 문서 분류

    

- 키워드 기반 연관분석

    빈번하게 발생하는 키워드의 집합이나 용어에서 연관성이나 상호관계를 발견하는 것

오피니언 마이닝

- 오피니언 마이닝

    텍스트 마이닝에서 발전된 기법

        - 특정 주제나 대상에서 보인 사람들의 주관적이고 감정적인 의견

 

    오피니언이 포함된 빅데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 이용하여 특정 주제에 보인 의견에 대한 선호도를 판별하는 기술

        - 선호도 : 긍정 / 부정 / 중립

- 오피니언 마이닝 수행 단계

    1. 특징 추출

    2. 의견 분류

    3. 요약 및 전달

- 오피니언 마이닝의 활용

    여론 방향 추적

 

웹 마이닝

- 웹 마이닝

    웹을 대상으로..

- 분석 대상에 따른 웹 마이닝의 구분

    웹 구조 마이닝

       - 웹사이트의 노드와 연결구조 분석

       - 하이퍼링크로부터 패턴, 웹페이지 구조 분석

    웹 사용 마이닝

       - 웹 서버 로그파일 분석

    웹 콘텐츠 마이닝

       - 저장된 콘텐츠 분석

'Coding > R & 빅데이터' 카테고리의 다른 글

[빅데이터] - 통계 분석  (0) 2020.06.23
[빅데이터] - 데이터 분석  (0) 2020.06.23
[빅데이터] - R 기초  (2) 2020.06.22