打造一個採用 content-based 的推薦系統
訓練資料:2000-01-10 - 2018-08-31
測試資料:2018-09-01 - 2018-09-30
數量:370752 / 590
訓練資料:2018-06-01 - 2018-08-31
測試資料:2018-09-01 - 2018-09-30
數量:7027 / 590
- 先比對一下驗證上有重複的使用者,發現重複性太低,導致依照使用者的推薦資料幾乎都是空的
- 全部的區間對比測試只有 38 位重複
- 換到前 3 個月對比測試只有 4 位重複
- 參考同學的作法
df = df.reset_index()
調整排序,得到第一階段分數 - 原本有加入正則想減少訓練所耗記憶體,但搭配 reset_index 卻會導致推薦變 0,只能先取消
- 最後搭配上次的 top 10 推薦,把空的推薦補上,得到第二階段分數
- 第一階段:依照購買記錄推薦
- 第二階段:依照購買記錄推薦,空的補上 top 10 推薦
- 上次 top 10 的推薦分數有 0.13389830508474576
訓練資料 | 重複人數 | 第一階段 | 第二階段 |
---|---|---|---|
全部 | 38 | 0.005084745762711864 | 0.13559322033898305 |
3個月 | 4 | 0.003389830508474576 | 0.13728813559322034 |