Skip to content

Repositorio para el desarrollo de modelos de Machine Learning aplicados a la detección de depresión en comentarios de Instagram utilizando la encuesta BDI-2 (Beck Depression Inventory). Incluye procesamiento de datos, entrenamiento y evaluación de modelos.

Notifications You must be signed in to change notification settings

SebastianCB-dev/BDI2-ML

Repository files navigation

BDI2-ML

Este es un repositorio dedicado al preprocesamiento de datos para la impresión diagnostica de sintomatología depresiva en comentarios implementando diferentes librerías de Python 3.

Preprocesamiento de datos

Lo que se hace:

  • stop words removal
  • emoji removal
  • punctuaction sign removal
  • Hashtags and mentions removal
  • Lemmatization
  • Normalization

Módulos

  • emoji
  • nltk
  • sklearn
  • spacy
  • stanza
  • wheel
  • hunspell
  • numpy
  • gensim
  • pyemd
  • joblib
  • skicit-learn
pip install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn

o

pip3 install emoji nltk sklearn spacy stanza wheel hunspell numpy gensim pyemd joblib scikit-learn

Errores:

  1. Error al instalar hunspell:
    • Se solventa instalando libhunspell-dev (Ubuntu)
sudo apt-get install libhunspell-dev
  1. Error con modelo 'es_core_news_md' de Spacy:
    • Se solventa descargandolo:
python -m spacy download es_core_news_md
python3 -m spacy download es_core_news_md
  1. Si hay un error con la importación del modelo de Regresión Logistica, instale otra versión de skicit-learn

Data

Para entrenar mas corpus al modelo

model.build_vocab(data)

Para cargar el modelo

Word2Vec.load('word2vec.model')

Para guardar el modelo

model.save('word2vec.model')

Para encontrar la similitud de coseno entre dos textos preprocesados:

coseno = model.wv.n_similarity(corpus_a, corpus_b)

Citations

Ofir Pele and Michael Werman "A linear time histogram metric for improved SIFT matching" <http://www.cs.huji.ac.il/\~werman/Papers/ECCV2008.pdf>_

Ofir Pele and Michael Werman "Fast and robust earth mover's distances" <https://ieeexplore.ieee.org/document/5459199/>_

Matt Kusner et al. "From Word Embeddings To Document Distances" <http://proceedings.mlr.press/v37/kusnerb15.pdf>

About

Repositorio para el desarrollo de modelos de Machine Learning aplicados a la detección de depresión en comentarios de Instagram utilizando la encuesta BDI-2 (Beck Depression Inventory). Incluye procesamiento de datos, entrenamiento y evaluación de modelos.

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published