목록Programming/R (31)
59doit

연속변수 시각화 연속변수(Continuous quantitative data): 시간, 길이 등과 같이 연속성을 가진 변수 상자 그래프, 히스토그램, 산점도 (1) 상자 그래프 시각화 상자 그래프: 요약정보를 시각화하는데 효과적 데이터의 분포 정도와 이상치 발견을 목적으로 하는 경우 사용 # VAdeaths 데이터 셋을 상자 그래프로 시각화하기 #1 “notch=FALSE”일 때 boxplot(VADeaths ,range=0) ‘range=0’ 속성에 의해 칼럼의 최소값과 최대값을 점선으로 연결 #2 “notch=TRUE”일 때 boxplot(VADeaths, range = 0, notch = T) abline(h = 37, lty = 3, col = "red") # h : y 좌표, lty : 점선, ..

데이터시각화 데이터 분석의 도입부에서 전체적인 데이터 구조를 살펴보기(탐색적) 위해서 시각화 도구 사용 이산변수: barplot(막대 차트), pie(원형 차트), abline(선 추가) 연속변수: hist(히스토그램), plot(산점도), boxplot(상자 박스), scatterplot3d(3차원 산점도), pair(산점도 매트릭스) 이산변수 시각화 이산변수 : 정수 단위로 나누어 측정할 수 있는 변수 막대차트, 점 차트, 원 차트 이용 (1) 막대 차트 시각화 barplot()함수를 이용하여 세로 막대 차트와 가로 막대 차트 그리기 ylim: y축 값의 범위 col: 각 막대를 나타낼 색상 지정 main: 차트의 제목 col 인수의 기본값은 lightgray 색상이다. RGB색상( ex #FF000..
표본추출 샘플링(sampling): 정제한 데이터셋에서 표본으로 사용할 데이터를 추출 (1) 정제 데이터 저장 ex ) 정제된 데이터 저장 print(user_pay_data) write.csv(user_pay_data, "cleanData.csv", quote = F, row.names = F) data