목록텍스트마이닝 (23)
59doit

# 연이어 사용된 단어쌍 빈도 구하기 #1 바이그램 분리하기 bigram_seprated % separate(bigram, c("word1", "word2"), sep = " ") bigram_seprated ## # A tibble: 23,313 x 3 ## id word1 word2 ## ## 1 1 우리 좋다 ## 2 1 좋다 생기다 ## 3 1 생기다 기쁘다 ## 4 1 기쁘다 행복한 ## 5 1 행복한 행복 ## 6 1 행복 축하 ## 7 1 축하 행복 ## 8 1 행복 기쁘다 ## 9 2 기쁘다 시국 ## 10 2 시국 기쁘다 ## # … with 23,303 more rows #2 단어쌍 빈도 구하기 pair_bigram % count(word1, word2, sort = T) %>% na...
(4) 연이어 사용된 단어쌍 분석 엔그램(n-gram) 연이어 사용된 n개의 단어 두 단어 연속: 바이그램(bigram) 또는 2-gram 세 단어 연속: 트라이그램(trigram) 또는 3-gram 텍스트를 엔그램으로 토큰화하면 단어 앞뒤에 연이어 사용된 단어를 함께 살펴봄: 얼마나 자주 '연이어' 사용된 단어쌍인가? 단어가 연결될 때 생기는 의미와 맥락을 이해할 수 있음 대다수의 텍스트에 사용된 평범한 단어쌍이 아니라 분명한 의미를 드러내는 단어쌍 발견 # 엔그램으로 토큰화하기 #1 샘플 텍스트로 엔그램 토큰화해보기 tidytext::unnest_tokens() token = "ngrams" n : 기준 단어 수 text % unnest_tokens(input = value, output = word..

(3) 단어 간 상관 분석 동시 출현 빈도의 한계 대부분의 단어와 자주 함께 사용되는 단어쌍 다수 ex) "영화"-"기생충" 다른 단어에 비해 상대적으로 자주 함께 사용된 단어가 무엇인지 살펴봐야 한다 파이 계수(phi coefficient) 두 단어가 함께 사용되는 경우가 각각 사용되는 경우에 비해 얼마나 많은지 나타낸 지표 상대적으로 관련성이 큰 단어 파악하는데 활용 어떤 단어와 자주 함께 사용되지만 다른 단어와는 자주 함께 사용되지 않는 단어 파이 계수의 의미 X, Y 두 단어가 있을 때, 여러 텍스트에서 두 단어의 사용 여부를 놓고 가능한 모든 경우 X, Y 모두 있음( ) X, Y 모두 없음( ) X만 있음( ) Y만 있음( ) +1에 가까울수록 두 단어가 자주 함께 사용되어 관련성이 크다는 의..

연결 중심성과 커뮤니티 표현하기 네트워크 그래프는 단어 노드가 많아 어떤 단어 노드 중심으로 해석할지 판단 어려움 연결 중심성과 커뮤니티를 표현하면 단어의 관계를 더 분명하게 파악할 수 있다 - 연결 중심성(degree centrality) 노드가 다른 노드들과 얼마나 밀접하게 연결되는지 나타낸 값 연결 중심성으로 노드 크기를 조정하면 어떤 단어를 눈여겨봐야 할지 판단하기 쉬워진다 - 커뮤니티(community) 단어 간의 관계가 가까워 빈번하게 연결된 노드 집단 노드를 커뮤니티별로 구분 지어 서로 다른 색으로 표현하면 네트워크 구조를 이해하기 쉬워진다 #1 네트워크 그래프 데이터에 연결 중심성, 커뮤니티 변수 추가하기 - 네트워크 그래프 데이터 만들기: as_tbl_graph() directed = F..