Este es un repositorio dedicado al preprocesamiento de datos para la impresión diagnostica de sintomatología depresiva en comentarios implementando diferentes librerías de Python 3.
Lo que se hace:
- stop words removal
- emoji removal
- punctuaction sign removal
- Hashtags and mentions removal
- Lemmatization
- Normalization
- emoji
- nltk
- sklearn
- spacy
- stanza
- wheel
- hunspell
- numpy
- gensim
- pyemd
- joblib
- skicit-learn
pip install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn
o
pip3 install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn
- Error al instalar hunspell:
- Se solventa instalando libhunspell-dev (Ubuntu)
sudo apt-get install libhunspell-dev
- Error con modelo 'es_core_news_md' de Spacy:
- Se solventa descargandolo:
python -m spacy download es_core_news_md
python3 -m spacy download es_core_news_md
- Si hay un error con la importación del modelo de Regresión Logistica, instale otra versión de skicit-learn
Para entrenar mas corpus al modelo
model.build_vocab(data)
Para cargar el modelo
Word2Vec.load('word2vec.model')
Para guardar el modelo
model.save('word2vec.model')
Para encontrar la similitud de coseno entre dos textos preprocesados:
coseno = model.wv.n_similarity(corpus_a, corpus_b)
Ofir Pele and Michael Werman "A linear time histogram metric for improved SIFT matching" <http://www.cs.huji.ac.il/\~werman/Papers/ECCV2008.pdf>_
Ofir Pele and Michael Werman "Fast and robust earth mover's distances" <https://ieeexplore.ieee.org/document/5459199/>_
Matt Kusner et al. "From Word Embeddings To Document Distances" <http://proceedings.mlr.press/v37/kusnerb15.pdf>