qj4chen / quick_text_classification Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

旨在提供一个简便的api，根据pd.dataframe, 对其中的文本列进行预处理、聚类、训练分类算法等任务

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
classification		classification
data		data
preprocessing		preprocessing
LICENSE		LICENSE
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
setup.py		setup.py

Repository files navigation

quick_text_classification

旨在提供一个简便的api，根据pd.dataframe, 对其中的文本列进行预处理、聚类、训练分类算法等任务.

目前已经完成的部分：

既可自行指定文本列, 也可根据 dtype 自动识别筛选文本列
将dataframe中的文本列聚合, 清洗, 包括去除stock_code, url, email, 数字
目前已添加的表征算法包括: bag-of-words, tf-idf

目前还未完成的部分:

文本词性识别, 作为额外信息, 补充到tf-idf和bag-of-words等lexicon-level的表征算法中
添加semantic-level的模型, 如:预训练word2vec, word2vec, bert

todo:

https://github.com/thisisandreeeee/ezcluster 自动求出KMeans最优的聚类数目，可能有用

About

旨在提供一个简便的api，根据pd.dataframe, 对其中的文本列进行预处理、聚类、训练分类算法等任务

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%