BDI2-ML

Este es un repositorio dedicado al preprocesamiento de datos para la impresión diagnostica de sintomatología depresiva en comentarios implementando diferentes librerías de Python 3.

Preprocesamiento de datos

Lo que se hace:

stop words removal
emoji removal
punctuaction sign removal
Hashtags and mentions removal
Lemmatization
Normalization

Módulos

emoji
nltk
sklearn
spacy
stanza
wheel
hunspell
numpy
gensim
pyemd
joblib
skicit-learn

pip install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn

o

pip3 install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn

Errores:

Error al instalar hunspell:
- Se solventa instalando libhunspell-dev (Ubuntu)

sudo apt-get install libhunspell-dev

Error con modelo 'es_core_news_md' de Spacy:
- Se solventa descargandolo:

python -m spacy download es_core_news_md
python3 -m spacy download es_core_news_md

Si hay un error con la importación del modelo de Regresión Logistica, instale otra versión de skicit-learn

Data

Para entrenar mas corpus al modelo

model.build_vocab(data)

Para cargar el modelo

Word2Vec.load('word2vec.model')

Para guardar el modelo

model.save('word2vec.model')

Para encontrar la similitud de coseno entre dos textos preprocesados:

coseno = model.wv.n_similarity(corpus_a, corpus_b)

Citations

Ofir Pele and Michael Werman "A linear time histogram metric for improved SIFT matching" <http://www.cs.huji.ac.il/\~werman/Papers/ECCV2008.pdf>_

Ofir Pele and Michael Werman "Fast and robust earth mover's distances" <https://ieeexplore.ieee.org/document/5459199/>_

Matt Kusner et al. "From Word Embeddings To Document Distances" <http://proceedings.mlr.press/v37/kusnerb15.pdf>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

BDI2-ML

Preprocesamiento de datos

Módulos

Errores:

Data

Citations

Files

README.md

Latest commit

History

README.md

File metadata and controls

BDI2-ML

Preprocesamiento de datos

Módulos

Errores:

Data

Citations