Word Vector & Word embedding 初探 - with n-Gram & GLOVE Model
終於又有新題材可以分享了,每天在公司歷練(?),下班時常想著要爬起來自我學習,但現實總有點動力骨感,打開的不是筆電,是switch.....不過人生嘛...努力就是想到的時候再做,也是一種進步。 不胡說八道了,進入主題Word Embedding吧,繼上次分享詞頻分析之後,心中對於text mining真的是想著總有一天我還要在更加深入的學習,所以今天要努力分享嚕~ 1. 什麼是Word Embedding? 當你打開手機,輸入"一瓶",螢幕上自動跳出 "啤酒" "汽水" 等名詞;或者郭台銘之於鴻海就像張忠謀之於台積電。 諸如此類讓文字彼此之間有所連結跟類似的邏輯,就是Word Embedding的應用。 透過分析一份完整的語料 (Corpus) 建立詞向量(Word Vector) 進而推論出詞語之間的邏輯語關係,就是Word Embedding的功能。 2. 和詞頻分析不同之處? 詞頻分析主要透過斷詞進而找出詞頻,並抓出相似的文件或者分析出文件的主題。 而詞向量主要在語料中的字詞間找出特定的邏輯和關係。 3. 貝式機率 & 馬可夫練 貝式機率一直是推論關係很好的辦法, P(w1,w2,w3,w4......,wn) = P(w1) * P(w2|w1) * P(w3|w1,w2) * .........P(wn|w1,w2,w3......,wn-1) P(w1,w2,w3,w4......,wn) <-- w1~wn 共同出現的機率 P(w1) <-- w1 出現之機率 P(w2|w1) <-- 給了w1後,w2出現的機率;P(w3|w1,w2) 給定w1,w2後,w3出現的機率 P(wn|w1,w2,w3......,wn-1) <-- 同理類推,給定w1~wn-1後,wn出現的機率。 如此一來便能推斷字詞之間的關係,但這時發現,如果字數太多,便會很耗費計算效能。 這時便可參考馬可夫鍊的假設,目前出現的詞,僅和前幾個出現的詞語有關係。 其實很好推論,馬可夫鍊也被應用於棒球投手的配球,假設一場球賽先發投手投了120球,我們要推論投手在最後10球的配球,並不會回溯到第一球或者回溯到他生涯的第一場先發,我們會根據他在前幾球的配球做後續推論,就是這樣的道理。 ...
留言
張貼留言