跳到主要內容

搜尋此網誌

Michael's notes

Spatial Analysis II

取得連結
Facebook
X
Pinterest
以電子郵件傳送
其他應用程式

- 2月 12, 2020

其實就是把上次的練習應用一下而已~~~
資料是以前分析過的Airbnb

https://rpubs.com/TimoBoll/573940

取得連結
Facebook
X
Pinterest
以電子郵件傳送
其他應用程式

留言

張貼留言

這個網誌中的熱門文章

文字探勘之關鍵字萃取 : TF-IDF , text-rank , RAKE

- 2月 10, 2020

Keyword Extraction 這次會將領域伸向文本分析(text mining)，我們將試著從文字資料裡做關鍵字萃取(Keyword extraction)，主要目的就是選出可以代表文章的詞彙。常見的應用情景如下： 1. 搜尋關鍵字萃取優化搜尋引擎(SEO) 上圖為筆者常常拜訪的部落格，右下角hot key words便是篩選出來的關鍵字應用。 2.消費者體驗優化消費者會在評價上留下實際體驗後的意見，我們可以先針對內容抓出key words, 如此一來處理客服端便可以提前預知消費者的需求，早一步作出準備。 How to do it? (1)Word of Bag詞袋表達怎麼去詳細計算呢? 舉簡單例子 Doc1. 我愛豬腳麵線 Doc2. 你愛麻油雞 Doc3. 我愛你，你愛我 Doc4. 你我愛麵線我們可由上面四篇文件計算出不同的詞與對應的頻率，這樣也就達成將各詞彙量化的目的了！ Ptt Movie版實作練習 1. 讀取資料 & 整理資料(stop words / Customized words) &字頻分析 #library and reading data library(tidyverse) library(jiebaR) library(widyr) library(tidytext) library(tm) library(igraph) library(ggnetwork) library(textrank) Movie <- read_csv("movie板電影心得.csv") head(Movie, 5) Movie$label <- ifelse(Movie$label==0,"好評","差評") Movie$label <- as.factor(Movie$label) 我們可以看到PTT上完整的文章，主要分析的內容是content，但可以看到有太多無謂的符號與各種沒有辦法幫助分析的字詞(eg: 雷文、防雷、不負責任....,等)，分析之前勢必要處理他們的。用gsub函數代換掉多餘的符號，同時設定好stopping wo...

閱讀完整內容

多元迴歸分析- subsets and shrinkage

- 3月 23, 2019

多元迴歸分析是統計學裡舉足輕重的角色，解釋、個體與趨勢預測都是強而有力的好伙伴，但是，當我們發現變數太多，不知道挑選哪一個，或者變數間相關係數非常的高，該怎麼辦? 本篇文章將會由Subsets Methods裡的Stepwise regression 開始介紹起，再來說明Shrinkage Methods 裡 lasso and ridge兩種不同的迴歸方法。 -------------------------------------------------------- A. 前言回歸或許是很強而有力的伙伴，但是相對的，使用條件也相對複雜得多，回歸模型往往伴隨著許多的變異，因此很輕易的將變數丟進去model裡，勢必會有很多的問題產生，例如： 1. Predict data放了不適當的變數造成了Overfitting導致實際上的testing data預測效果太差。 2. 解釋變數彼此的相關程度很高，型成共線性的問題，反而讓coefficient被大大影響，通常判斷共線性的標準主要為： I.容忍度（ tolerance ，小於 0.1 有共線性問題） II.變異數膨脹因素（ Variance inflation factor, VIF ，大於 10 有共線性問題） III.條件指標（ Condition index, CI ，大於 30 有共線性問題）為了解決這個方法，subsets 與 shrinkage兩種方法便孕育而生了兩種方法代表模型如下: subsets: Stepwise shringkage: lasso and ridge 其中lasso 跟Stepwise目前被頻繁用於變數挑選上。 B. 子集回歸(subsets regression) Forward stepwise: 在空的迴歸模型中，逐一加入變數，直到AIC值為最小 Backward stepwise: 在包含所有變數的模型中，逐一刪除變數，直到AIC值為最小 Bo...

閱讀完整內容

Word Vector & Word embedding 初探 - with n-Gram & GLOVE Model

- 7月 03, 2021

終於又有新題材可以分享了，每天在公司歷練（？），下班時常想著要爬起來自我學習，但現實總有點動力骨感，打開的不是筆電，是switch.....不過人生嘛...努力就是想到的時候再做，也是一種進步。不胡說八道了，進入主題Word Embedding吧，繼上次分享詞頻分析之後，心中對於text mining真的是想著總有一天我還要在更加深入的學習，所以今天要努力分享嚕~ 1. 什麼是Word Embedding? 當你打開手機，輸入"一瓶"，螢幕上自動跳出 "啤酒" "汽水" 等名詞；或者郭台銘之於鴻海就像張忠謀之於台積電。諸如此類讓文字彼此之間有所連結跟類似的邏輯，就是Word Embedding的應用。透過分析一份完整的語料 (Corpus) 建立詞向量(Word Vector) 進而推論出詞語之間的邏輯語關係，就是Word Embedding的功能。 2. 和詞頻分析不同之處? 詞頻分析主要透過斷詞進而找出詞頻，並抓出相似的文件或者分析出文件的主題。而詞向量主要在語料中的字詞間找出特定的邏輯和關係。 3. 貝式機率 & 馬可夫練貝式機率一直是推論關係很好的辦法， P(w1,w2,w3,w4......,wn) = P(w1) * P(w2|w1) * P(w3|w1,w2) * .........P(wn|w1,w2,w3......,wn-1) P(w1,w2,w3,w4......,wn) <-- w1~wn 共同出現的機率 P(w1) <-- w1 出現之機率 P(w2|w1) <-- 給了w1後，w2出現的機率；P(w3|w1,w2) 給定w1,w2後，w3出現的機率 P(wn|w1,w2,w3......,wn-1) <-- 同理類推，給定w1~wn-1後，wn出現的機率。如此一來便能推斷字詞之間的關係，但這時發現，如果字數太多，便會很耗費計算效能。這時便可參考馬可夫鍊的假設，目前出現的詞，僅和前幾個出現的詞語有關係。其實很好推論，馬可夫鍊也被應用於棒球投手的配球，假設一場球賽先發投手投了120球，我們要推論投手在最後10球的配球，並不會回溯到第一球或者回溯到他生涯的第一場先發，我們會根據他在前幾球的配球做後續推論，就是這樣的道理。 ...

閱讀完整內容

技術提供：Blogger

主題圖片來源：Michael Elkan

Michael's sharing: 本身是市調業的Data analyst 努力學習進修相關知識中

history

2022 2
- 10月 2

2021 2
- 7月 1
- 4月 1
2020 7
2019 11
- 12月 2
- 11月 1
- 10月 1
- 9月 2
- 8月 1
- 7月 1
- 5月 1
- 3月 2

顯示更多顯示較少

檢舉濫用情形