본문 바로가기

Coding/R & 빅데이터

[빅데이터] - R 기초

R 기초

R과 Python

분석환경의 이해 - 통계 패키지 R

분석환경의 이해 - R의 역사

분석환경의 이해 - R의 특징

설치~~

데이터 생김새, 변수와 함수

변수

변수(Variable)은 특정 범위 안에서 다양하게 변할 수 있는 값을 의미함

변수가 모여 데이터 세트가 되고, 분석의 대상이 되므로 변수의 개념을 명확하게 알고 있어야 함

 

변수 만들기

R에서 변수, x <- 10 형식

'데이터 10을 변수 x에 할당합니다' 라는 의미

<- : 할당연산자, = 도 사용가능

 

- c() 함수 : 

- :(콜론) :

- seq() 함수 :

 

변수 생성 규칙

첫 글자 -> 반드시 영문자 또는 마침표

두 번째 글자부터 -> 영문자, 숫자, 밑줄 가능

대소문자 구분

빈칸 X

함수와 패키지

함수는 어떤 데이터 값을 미리 정해 둔 공식에 따라 처리하여 특정한 결과로 도출해 주는 기능을 뜻함

 

패키지는 여러 함수를 상자 하나에 담아둔 것

설치, 로드 필요

설치 : install.packages("설치할 패키지명")

로드 : library(로드할 패키지명) / require(로드할 패키지명)

데이터 구조 간 관계

- 단일형 : 숫자형 또는 문자형과 같이 한 가지 데이터 형태로만 구성된 데이터

벡터 / 행렬 / 배열

 

- 다중형 : 숫자 데이터 또는 문자 데이터 등 여러가지 데이터 형태로 구성된 데이터

리스트 / 데이터 프레임

 

차원 : 데이터 내에서 측정 데이터 값을 찾을 때 필요한 정보 개수

데이터 구조 - 벡터

- 숫자형 벡터 / 실수형 벡터

    정수,유리수,무리수를 모두 포함하는 숫자를 데이터화

- 문자형 벡터

    문자로 이루어진 데이터로 할당할 문자 데이터를 따옴표로 감싼 형식

- 논리형 벡터

    TRUE와 FALSE라는 논리값으로 이루어진 데이터

데이터 구조 - 행렬 / 배열

    행렬 데이터는 단일형, 행과 열로 구성된 2차원 데이터

데이터 구조 - 리스트

    리스트는 1차원, 다중형 데이터

데이터 구조 - 데이터 프레임

    서로 다른 형태의 데이터를 묶을 수 있는 다중형 데이터 세트

데이터 수집

- 원시 자료 입력하기

    분석할 데이터 값을 직접 입력하여 저장하는 것을 원시자료 입력이라 함

    원시자료 입력은 데이터를 변수에 할당하는 방식으로 구성

- 엑셀파일 불러오기

    read_excel()

    readxl 패키지 설치필요

- TXT 파일 가져오기

    read.table()

R Studio - Import Dataset

- R 스튜디오의 Import Dataset 기능을 사용한 txt/csv 파일 데이터 가져오기

- R 스튜디오의 Import Dataset 기능을 사용한 엑셀 파일 데이터 가져오기

데이터 저장 / 불러오기

- RDA 파일로 저장하고 불러오기

기초 함수

- 기초 함수 - 수열 생성

    rep(m,n)

    seq())

- 기초 함수 - 산술연산자 / 비교 & 논리 연산자

- 기초 함수

    min()

    max()

    sum()

    log()

    mean()

    var()

분석을 위한 데이터 정리

- 데이터 파악 함수

    View(데이터 세트)

        데이터 확인

    str(데이터 세트)

        변수의 속성 확인

    dim(데이터 세트)

        데이터 프레임 확인

    ls(데이터 세트)

        리스트로 만듦

- 변수명 변경하기

    rename()

파생 변수 생성하기

- 데이터 연산 방식

        데이터 세트$새 파생 변수명 <- 데이터 세트$기존 변수명 + 데이터세트$기존 변수명

- 변수 변환 방식

        ifelse

반복문과 조건문

- for 반복문

- while 반복문