목록portfolio (10)
59doit

[ 데이터 시각화 ] R의 ggplot2 패키지 내 함수와 python의 matplotlib 패키지 내 함수를 사용하여 막대 차트(가로, 세로), 누적막대 차트, 점 차트, 원형 차트, 상자 그래프, 히스토그램, 산점도, 중첩자료 시각화, 변수간의 비교 시각화, 밀도그래프를 수업자료pdf 내 데이터를 이용하여 각각 시각화하고 비교하시오. # 패키지 및 데이터 불러오기 library(ggplot2) library(dplyr) data("iris") data("diamonds") data(VADeaths) data(galton) iris 데이터 사용 diamonds 데이터 사용 VADeaths 사용 galton 사용 (1) 막대차트 #1 막대차트 데이터 chart_data

[ 텍스트분석 / 시각화 ] 제공된 데이터를 대상으로 텍스트 분석을 실행하시오. (1) 제공된 데이터를 이용하여 토픽 분석을 실시하여 단어구름으로 시각화 하고 단어 출현 빈도수를 기반하여 어떤 단어들이 주요 단어인지 설명하시오 (2) 제공된 데이터를 이용하여 연관어 분석을 실시하여 연관어를 시각화 하고 시각화 결과에 대해 설명하시오 우크라이나라는 단어가 사전에 등록되어 있지 않기 때문에 먼저 세종 사전에 단어를 추가 단어 단위로 추출하여 전처리를 진행하고, 단어 출현 빈도수를 구하였다. 시각화 할 때 가장 크게 그려지는 단어가 빈도수가 가장 높은 단어이다. 연관어 분석 역시 사용자 정의 함수를 만들어 2글자 이상 5글자 이하 한글을 필터링하고 데이터 정리를 마친 뒤 트랜잭션으로 만들기 연관규칙을 apri..

[ 군집분석 / 시각화 ] 아래의 조건을 고려하여 군집분석을 실행하시오. (1) 데이터: ggplot2 패키지 내 diamonds 데이터 (2) philentropy::distance() 함수 내 다양한 거리 계산 방법 중 Euclidian거리를 제외한 3개를 이용하여 거리 계산 및 사용된 거리에 대한 설명 (3) 탐색적 목적의 계층적 군집분석 실행 (4) 군집수 결정 및 결정 사유 설명 (5) k-means clustering 실행 (6) 시각화 (7) 거리 계산 방법에 따른 결과 차이 비교 맨해튼 거리, 민코프스키 거리, 코사인 거리를 선택하여 거리 계산을 진행 민코프스키 거리의 p 값이 1 이면 맨해튼 거리와 동일하고, p 값이 2 면 유클리드 거리와 동일하기 때문에 p 값을 3 으로 지정하여 계산..

#1 필요한 모듈 임포트 import numpy as np import pandas as pd import seaborn as sns import matplotlib as mpl import matplotlib.pylab as plt from sklearn.linear_model import LinearRegression import statsmodels.api as sm import scipy.stats as stats import sklearn import statsmodels.api as sm from sklearn.datasets import load_boston from sklearn import datasets #2 데이터 셋 로드 boston = load_boston() ..