Feat: Added depression.model

SebastianCB-dev · Nov 4, 2022 · 0394d6d · 0394d6d
1 parent 86e75d0
commit 0394d6d
Show file tree

Hide file tree

Showing 3 changed files with 44 additions and 24 deletions.
diff --git a/BECK/app.py b/BECK/app.py
@@ -1,24 +0,0 @@
-import pandas as pd
-import nltk
-nltk.download('punkt')
-from preprocessing_service import Preprocesamiento
-from gensim.models import Word2Vec
-
-df_positivo = pd.read_csv('./comentarios_español_depresivos.csv', encoding='utf-8')
-df_negativo = pd.read_csv('./comentarios_español_no_depresivos.csv', encoding='utf-8')
-pp = Preprocesamiento()
-tokens = []
-
-comentarios_depresivos = list(df_positivo['text'])
-clases_depresivos = list(df_positivo['class'])
-
-
-
-# Entrenamiento
-# vector size = 200 dimensiones
-# window = Ventana referente a las palabras siguientes 
-# For example "stackoverflow great website for programmers" with 5 words(suppose we save the stop words great and for here) if the window size is 2 then the vector of word "stackoverflow" is directly affected by the word "great" and "website", if the window size is 5 "stackoverflow" can be directly affected by two more words "for" and "programmers". The 'affected' here means it will pull the vector of two words closer.
-
-
-model = Word2Vec(sentences=tokens, vector_size=200,
-                 window=7, workers=4, sg=1, epochs=20)

diff --git a/BECK/depresion.model b/BECK/depresion.model
diff --git a/BECK/helpers/model_creator.py b/BECK/helpers/model_creator.py
@@ -0,0 +1,44 @@
+import pandas as pd
+import nltk
+nltk.download('punkt')
+from preprocessing_service import Preprocesamiento
+from gensim.models import Word2Vec
+
+df_positivo = pd.read_csv('./comentarios_español_depresivos.csv', encoding='utf-8')
+df_negativo = pd.read_csv('./comentarios_español_no_depresivos.csv', encoding='utf-8')
+pp = Preprocesamiento()
+tokens = []
+
+comentarios_depresivos = list(df_positivo['text'])
+comentarios_no_depresivos = list(df_negativo['text'])
+
+count = 1
+for comentario in comentarios_depresivos:
+  print(f'Preprocesando comentario: {count}/{len(comentarios_depresivos) + len(comentarios_no_depresivos)}')
+  try:
+    comentario_preprocesado = pp.preprocesamiento_sin_ortografia(comentario)
+    tokens.append(comentario_preprocesado)
+    count += 1
+  except Exception as e:
+    print(
+        f'Error preprocesando el comentario {count}/{len(comentarios_depresivos) + len(comentarios_no_depresivos)}')
+    count += 1
+    continue
+
+
+for comentario in comentarios_no_depresivos:
+  print(
+      f'Preprocesando comentario: {count}/{len(comentarios_depresivos) + len(comentarios_no_depresivos)}')
+  try:
+    comentario_preprocesado = pp.preprocesamiento_sin_ortografia(comentario)
+    tokens.append(comentario_preprocesado)
+  except Exception as e:
+    print(
+        f'Error preprocesando el comentario {count}/{len(comentarios_depresivos) + len(comentarios_no_depresivos)}')
+    count += 1
+    continue
+
+model = Word2Vec(sentences=tokens, vector_size=200,
+                 window=7, workers=4, sg=1, epochs=20)
+
+model.save('depresion.model')