Skip to content

Latest commit

 

History

History
39 lines (25 loc) · 1.24 KB

README-wk02.md

File metadata and controls

39 lines (25 loc) · 1.24 KB

data-course-sample

專案目的

打造一個採用 content-based 的推薦系統

資料

訓練資料:2000-01-10 - 2018-08-31
測試資料:2018-09-01 - 2018-09-30
數量:370752 / 590

訓練資料:2018-06-01 - 2018-08-31
測試資料:2018-09-01 - 2018-09-30
數量:7027 / 590

作法

  • 先比對一下驗證上有重複的使用者,發現重複性太低,導致依照使用者的推薦資料幾乎都是空的
    • 全部的區間對比測試只有 38 位重複
    • 換到前 3 個月對比測試只有 4 位重複
  • 參考同學的作法 df = df.reset_index() 調整排序,得到第一階段分數
  • 原本有加入正則想減少訓練所耗記憶體,但搭配 reset_index 卻會導致推薦變 0,只能先取消
  • 最後搭配上次的 top 10 推薦,把空的推薦補上,得到第二階段分數

結果

  • 第一階段:依照購買記錄推薦
  • 第二階段:依照購買記錄推薦,空的補上 top 10 推薦
    • 上次 top 10 的推薦分數有 0.13389830508474576
訓練資料 重複人數 第一階段 第二階段
全部 38 0.005084745762711864 0.13559322033898305
3個月 4 0.003389830508474576 0.13728813559322034