用PU學習算法做文本挖掘

正例和無標記樣本學習(Learning from Positive and Unlabeled examples)一般稱為LPU或PU學習。PU學習是一種常用的半監督的二元分類模型,它的目的是通過已標注的正例數據和大量的未標注數據訓練出一個用于區分正反分類的分類器。

用PU學習算法做文本挖掘

這個方向國內也有類似,甚至可能更前瞻的基于社交化數據挖掘, 提煉出個性化推薦。火花無線, 一家O2O的無線新秀所推出的美食推薦應用, 麻花, 就是一個典型案例。作為一部分基礎數據, 該應用挖掘了新浪微博上有關餐廳的微博分享, 并匯集成熱門餐廳。我們來看一下麻花是怎樣在新浪微博等SNS上做數據挖掘的。

圖12-3麻花界面示意圖

為了給用戶最個性化和最高價值的過程中, 該應用進一步通過互粉關系, 把互粉用戶所推薦的內容提高權重,推薦給用戶, 從而提高推薦餐館的相關度和增加搜索結果的可信度。 說起來很簡單,但是在這里比較關鍵的是如何從用戶的某條微博中發現地點和判斷用戶是對該地點做出評論。不是每條包含地點的微博都是對地點的推薦。比如

“我在貝塔咖啡吃午飯”

或者

“今天去福地聽講座”

這些微博雖然提到了地點,但只能算是一個“check-in”,并不是對這些地點的評價。

用PU學習算法做文本挖掘

Word文檔免費下載Word文檔免費下載:用PU學習算法做文本挖掘 (共3頁,當前第1頁)

你可能喜歡

  • 電子商務數據分析
  • 電子商務運營
  • 電子商務數據挖掘
  • 數據技術
  • 電商數據
  • 碎片化時代
  • 美國大學排名
  • 電子商務課件

用PU學習算法做文本挖掘相關文檔

最新文檔

返回頂部
双色球基本走势图图表