R 기초
R과 Python
분석환경의 이해 - 통계 패키지 R
분석환경의 이해 - R의 역사
분석환경의 이해 - R의 특징
설치~~
데이터 생김새, 변수와 함수
변수
변수(Variable)은 특정 범위 안에서 다양하게 변할 수 있는 값을 의미함
변수가 모여 데이터 세트가 되고, 분석의 대상이 되므로 변수의 개념을 명확하게 알고 있어야 함
변수 만들기
R에서 변수, x <- 10 형식
'데이터 10을 변수 x에 할당합니다' 라는 의미
<- : 할당연산자, = 도 사용가능
- c() 함수 :
- :(콜론) :
- seq() 함수 :
변수 생성 규칙
첫 글자 -> 반드시 영문자 또는 마침표
두 번째 글자부터 -> 영문자, 숫자, 밑줄 가능
대소문자 구분
빈칸 X
함수와 패키지
함수는 어떤 데이터 값을 미리 정해 둔 공식에 따라 처리하여 특정한 결과로 도출해 주는 기능을 뜻함
패키지는 여러 함수를 상자 하나에 담아둔 것
설치, 로드 필요
설치 : install.packages("설치할 패키지명")
로드 : library(로드할 패키지명) / require(로드할 패키지명)
데이터 구조 간 관계
- 단일형 : 숫자형 또는 문자형과 같이 한 가지 데이터 형태로만 구성된 데이터
벡터 / 행렬 / 배열
- 다중형 : 숫자 데이터 또는 문자 데이터 등 여러가지 데이터 형태로 구성된 데이터
리스트 / 데이터 프레임
차원 : 데이터 내에서 측정 데이터 값을 찾을 때 필요한 정보 개수
데이터 구조 - 벡터
- 숫자형 벡터 / 실수형 벡터
정수,유리수,무리수를 모두 포함하는 숫자를 데이터화
- 문자형 벡터
문자로 이루어진 데이터로 할당할 문자 데이터를 따옴표로 감싼 형식
- 논리형 벡터
TRUE와 FALSE라는 논리값으로 이루어진 데이터
데이터 구조 - 행렬 / 배열
행렬 데이터는 단일형, 행과 열로 구성된 2차원 데이터
데이터 구조 - 리스트
리스트는 1차원, 다중형 데이터
데이터 구조 - 데이터 프레임
서로 다른 형태의 데이터를 묶을 수 있는 다중형 데이터 세트
데이터 수집
- 원시 자료 입력하기
분석할 데이터 값을 직접 입력하여 저장하는 것을 원시자료 입력이라 함
원시자료 입력은 데이터를 변수에 할당하는 방식으로 구성
- 엑셀파일 불러오기
read_excel()
readxl 패키지 설치필요
- TXT 파일 가져오기
read.table()
R Studio - Import Dataset
- R 스튜디오의 Import Dataset 기능을 사용한 txt/csv 파일 데이터 가져오기
- R 스튜디오의 Import Dataset 기능을 사용한 엑셀 파일 데이터 가져오기
데이터 저장 / 불러오기
- RDA 파일로 저장하고 불러오기
기초 함수
- 기초 함수 - 수열 생성
rep(m,n)
seq())
- 기초 함수 - 산술연산자 / 비교 & 논리 연산자
- 기초 함수
min()
max()
sum()
log()
mean()
var()
분석을 위한 데이터 정리
- 데이터 파악 함수
View(데이터 세트)
데이터 확인
str(데이터 세트)
변수의 속성 확인
dim(데이터 세트)
데이터 프레임 확인
ls(데이터 세트)
리스트로 만듦
- 변수명 변경하기
rename()
파생 변수 생성하기
- 데이터 연산 방식
데이터 세트$새 파생 변수명 <- 데이터 세트$기존 변수명 + 데이터세트$기존 변수명
- 변수 변환 방식
ifelse
반복문과 조건문
- for 반복문
- while 반복문
'Coding > R & 빅데이터' 카테고리의 다른 글
[빅데이터] - 정형, 비정형 데이터 마이닝 (0) | 2020.06.23 |
---|---|
[빅데이터] - 통계 분석 (0) | 2020.06.23 |
[빅데이터] - 데이터 분석 (0) | 2020.06.23 |