Skip to content

YitongFeng/NewsRecommendation

Repository files navigation

测试集以test开头,训练集以train开头。
——————————————————————————————————————————————————————————————————————————————————————————

1. stopword.txt为停用词表

2. test.txt 为测试用的数据

3. words.txt 不论是测试集还是训练集 新闻标题还是新闻正文 所有出现过的词(已去停词 去重 保留了df >= 4 && df <= 500 的词)——————————————————————————————————————————————————————————————————————————————————————————

4. test_body_tf.txt 为测试集新闻正文的词频统计 每一行为一条string 各个词与统计数字以空格分离 与
test_news_ids.txt相对应

5. test_news_ids.txt 为测试集新闻id

6. test_title_tf.txt 测试集新闻标题词频统计 每一行为一条string 各个词与统计数字以空格分离 与
test_news_ids.txt相对应

7. test_user_reads.txt 测试集用户浏览的新闻id 用户与新闻id之间以两个制表符“\t\t”间隔 新闻id之间以空格“ ”间隔
——————————————————————————————————————————————————————————————————————————————————————————

8. train_body_tf.txt 训练集新闻正文的词频统计 每一行为一条string 各个词与统计数字以空格分离 与train_news_ids.txt相对应

9. train_news_ids.txt 训练集新闻id

10. train_title_tf.txt 训练集新闻标题词频统计 每一行为一条string 各个词与统计数字以空格分离 与train_news_ids.txt相对应

11. train_user_reads.txt 训练集用户浏览的新闻id 用户id与新闻id之间以两个“\t\t”间隔 新闻id之间以“ ”间隔

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages