文字探勘之關鍵字萃取 : TF-IDF , text-rank , RAKE
Keyword Extraction 這次會將領域伸向文本分析(text mining), 我們將試著從文字資料裡做關鍵字萃取(Keyword extraction),主要目的就是選出可以代表文章的詞彙。 常見的應用情景如下: 1. 搜尋關鍵字萃取優化搜尋引擎(SEO) 上圖為筆者常常拜訪的部落格,右下角hot key words便是篩選出來的關鍵字應用。 2.消費者體驗優化 消費者會在評價上留下實際體驗後的意見,我們可以先針對內容抓出key words, 如此一來處理客服端便可以提前預知消費者的需求,早一步作出準備。 How to do it? (1)Word of Bag詞袋表達 怎麼去詳細計算呢? 舉簡單例子 Doc1. 我愛豬腳麵線 Doc2. 你愛麻油雞 Doc3. 我愛你,你愛我 Doc4. 你我愛麵線 我們可由上面四篇文件計算出不同的詞與對應的頻率,這樣也就達成將各詞彙量化的目的了! Ptt Movie版實作練習 1. 讀取資料 & 整理資料(stop words / Customized words) &字頻分析 #library and reading data library(tidyverse) library(jiebaR) library(widyr) library(tidytext) library(tm) library(igraph) library(ggnetwork) library(textrank) Movie <- read_csv("movie板 電影心得.csv") head(Movie, 5) Movie$label <- ifelse(Movie$label==0,"好評","差評") Movie$label <- as.factor(Movie$label) 我們可以看到PTT上完整的文章,主要分析的內容是content,但可以看到有太多無謂的符號與各種沒有辦法幫助分析的字詞(eg: 雷文、防雷、不負責任....,等),分析之前勢必要處理他們的。 用gsub函數代換掉多餘的符號,同時設定好stopping wo...
留言
張貼留言