1. 데이터 마이닝 개요
데이터 마이닝 개요
- 데이터 마이닝
- 데이터베이스에서의 지식발견
- 지식 추출
- 정보 수확
- 정보 고고학
- 데이터 패턴 프로세싱
-> 거대한 양의 데이터 속에서 쉽게 들어나지 않는 유용한 정보를 찾아내는 과정
-> 기업이 사용 가능한 원천 데이터를 기반으로 감춰진 지식, 경향, 규칙 등을 발견하고 이를 실제 비지니스 의사결정 등에 활용하고자 하는 일련의 작업
데이터 마이닝 6가지 기능
- 1) 분류 (Classification)
- 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것을 의미
- 2) 추정 (Estimation)
- 연속된 변수의 값을 추정 / 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정
- 3) 예측 (Prediction)
- 미래의 양상을 예측하거나 미래의 값을 추정한다는 것을 제외하면 분류나 추정과 동일한 의미
- 4) 연관분석 (Association Analysis)
- '같이 팔리는 물건'과 같이 아이템의 연관성을 파악하는 분석
- 5) 군집 (Clustering)
- 이질적인 모집단을 동질성을 지닌 그룹 별로 세분화
- 시장 세분화의 첫 단계로써 판촉 활동 반응률이 높은 고객 선별, 구매습관이 유사한 사람들 군집화
- 6) 기술 (Description)
- 데이터가 암시하는 바를 설명 가능해야 하며 설명에 대한 답을 찾을 수 있어야 함
- 데이터마이닝의 기능을 추진하기 위한 5단계
1. 목적 정의 : 데이터마이닝 목적 / 기법 정의
2. 데이터 준비
3. 데이터 가공 : 기법에 적용이 가능하도록 가공
4. 데이터 마이닝 기법의 적용
5. 검증
2. 분류 분석
분류 분석
- 분류 분석
데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법
- 분류 분석의 목적
반응변수가 알려진 다변량자료를 이용하여 모형을 구축, 새로운 자료에 대한 예측 및 분류를 수행
- 분류 모델링
- 신용평가모형 / 사기방지모형 / 이탈모형
- 분류 기법
- 엄청 많음
- 분류 분석 vs 예측 분석
- 공통점 : 레코드의 특정 속성의 값을 미리 알아 맞힘
- 차이점 : 레코드의 범주형 속성 값을 맞히는 것 / 연속형 속성
- 분류 예 : 내신등급 / 신용등급 등
- 예측 예 : 수능점수 예측 / 연 매출액 예측
분류 분석 - 로지스틱 회귀모형
- 로지스틱 회귀모형
- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형
새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 분류하는 목적으로 활용
사후 확률 : 적합을 통해 추정된 확률
분류 분석 - 신경망 모형
- 신경망 모형(ANN)
- 인공신경망
- 인공신경망의 학습
-> 가중치 조정방식
- 단층 신경망
- 입력층이 은닉층을 거치지 않고 직접 출력층에 연결되는 구조
- 퍼셉트론으로 불리기도 함
- 다층 신경망
- 입력층 - 은닉층(들) - 출력층으로 구성
- 은닉층이 2개 이상 = 심층신경망
분류 분석 - 의사결정나무 모형
- 의사결정나무
- 의사결정의 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법
- 목표변수가 이산형인 경우 -> 분류나무
- 목표변수가 연속형인 경우 -> 회귀나무
- 활용
세분화,분류, 등
- 특징
설명이 쉽다
분류 분석 - 앙상블 모형
- 앙상블
- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도 높이는 방법
- 배깅
- 주어진 자료에서 여러 개 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종예측모형을 만드는 방법
- 부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형들을 만드는 방법
- 훈련오차를 빠르고 쉽게 줄임
- 랜덤 포레스트
- 분산이 큰 의사결정나무를 고려 -> 무작위성을 늘림
분류 분석 - 모형평가
- 분석 모형의 평가
- 임의의 모형 보다 더 우수한 분류 성과를 보이는지 등.. 비교 분석하는 과정
- 모델 평가의 기준
일반화의 가능성
안정적인 결과
효율성
적은 입력변수를 필요로 할수록 효율 높음
예측과 분류의 정확성
정확성 측면
3. 군집 분석
군집 분석
- 군집 분석 개요
- 객채들의 유사성 측정, 유사성이 높은 대상 집단 분류, 유사성 및 상이성 규명
- 특성에 따라 객체들을 여러 개의 배타적인 집단으로 나눔
- 군집 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화
- 군집분석의 특징
요인분석과의 차이 : 유사한 변수를 함께 묶어줌
판별분석과의 차이 : 새로운 데이터를 기존 집단에 할당하는 것이 목적
군집 분석 - 계층적 군집
- 계층적 군집
- n개의 군집으로 시작해 개수를 줄여나가는 방법
- 계층적 군집을 형성하는 방법
- 병합적 방법 : 작은군집 -> 큰 군집 병합
- 분할적 방법 : 큰 군집 -> 군집 분리
- 계층적 군집 수행 시 두 군집 간 거리 측정 방법
- 최단 연결법 / 단일 연결법
- 최장 연결법 / 완전 연결법
- 중심 연결법
- 평균 연결법
- 와드 연결법
군집 분석 - K-평균 군집
- K-평균 군집
- 비 계층적 군집
- K-평균 군집분석
- K-평균 군집분석의 특징
군집 분석 - 혼합 분포 군집
- 혼합 분포 군집
- 모형 기반 군집방법
군집 분석 - SOM
- 자기조직화지도 - SOM
- 신경망 사용
4. 연관 분석
연관 분석
- 연관 규칙
연관규칙의 개념
연관분석의 측도 3가지
- 지지도
- 신뢰도
- 향상도
연관규칙의 절차
최소지지도 결정
개별 품목 중 최소지지도를 넘는 품목 분류
2가지 품목 집합 생성
반복적으로 수행하여 빈발품목 집합을 찾음
연관규칙의 장점
- 탐색적 기법
- 강력한 비목적성분석 기법
- 사용이 편리한 분석 데이터 형태
- 계산의 용이성
연관규칙의 단점
- 상당한 수의 계산과정
- 적절한 품목 결정
- 품목의 비율 차이
순차 패턴
연관성 분석 활용방안
5. 비정형 데이터마이닝
정형 / 비정형 데이터마이닝
- 데이터 관리 및 분석과 의미 도출
- 비정형 데이터 분석 기법
텍스트 마이닝
- 텍스트 마이닝
텍스트 형태로 이루어진 반정형, 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출, 가공을 목적으로 하는 기술
- 텍스트 마이닝의 응용
- 텍스트 마이닝 수행 단계
1. 텍스트문서 선정
2. 텍스트 전처리 단계
3. 의미정보 변환 단계
4. 의미정보 추출 단계
5. 패턴 및 경향분석 단계
6. 정보표현 및 평가 단계
- 텍스트 마이닝과 데이터 마이닝 비교
- 텍스트 마이닝의 문제점
1. 자연어에 영향을 상당히 많이 받는다
2. 분서 결과물 자체로 어떤 성과를 보기 힘들다
- 자연어 처리
인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술
- 자연어 처리 도구와 기술
형태소 분석기 / 구문 분석기 / 화행 분석기 / 대화처리 분석기 등
- 자동 문서 분류
- 키워드 기반 연관분석
빈번하게 발생하는 키워드의 집합이나 용어에서 연관성이나 상호관계를 발견하는 것
오피니언 마이닝
- 오피니언 마이닝
텍스트 마이닝에서 발전된 기법
- 특정 주제나 대상에서 보인 사람들의 주관적이고 감정적인 의견
오피니언이 포함된 빅데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 이용하여 특정 주제에 보인 의견에 대한 선호도를 판별하는 기술
- 선호도 : 긍정 / 부정 / 중립
- 오피니언 마이닝 수행 단계
1. 특징 추출
2. 의견 분류
3. 요약 및 전달
- 오피니언 마이닝의 활용
여론 방향 추적
웹 마이닝
- 웹 마이닝
웹을 대상으로..
- 분석 대상에 따른 웹 마이닝의 구분
웹 구조 마이닝
- 웹사이트의 노드와 연결구조 분석
- 하이퍼링크로부터 패턴, 웹페이지 구조 분석
웹 사용 마이닝
- 웹 서버 로그파일 분석
웹 콘텐츠 마이닝
- 저장된 콘텐츠 분석
'Coding > R & 빅데이터' 카테고리의 다른 글
[빅데이터] - 통계 분석 (0) | 2020.06.23 |
---|---|
[빅데이터] - 데이터 분석 (0) | 2020.06.23 |
[빅데이터] - R 기초 (2) | 2020.06.22 |