Skip to content

Commit

Permalink
Feat: Updated documentation
Browse files Browse the repository at this point in the history
  • Loading branch information
SebastianCB-dev committed Dec 4, 2022
1 parent c8ffdab commit 94c2124
Showing 1 changed file with 35 additions and 21 deletions.
56 changes: 35 additions & 21 deletions preprocessing_service.py
Original file line number Diff line number Diff line change
Expand Up @@ -37,13 +37,12 @@ def __init__(self):

def preprocesamiento_con_ortografia(self, texto):
"""
Toma una cadena, elimina hashtags, emojis y palabras vacías, y devuelve una cadena
Toma una cadena, elimina emojis, elimina datos inútiles, corrige ortografía, normaliza, lematiza,
elimina palabras vacías y elimina duplicados.
:param texto: El texto a ser preprocesado
:return: El texto está siendo devuelto.
:param texto: El texto a procesar
:return: El texto preprocesado.
"""

# Eliminar etiquetas y hashtags
try:
texto = self.eliminar_etiquetados(texto)
texto = self.eliminar_emojis(texto)
Expand All @@ -59,23 +58,27 @@ def preprocesamiento_con_ortografia(self, texto):
except:
return ""


def preprocesamiento_sin_ortografia(self, texto):
"""
Preprocesamiento
Función que hace el llamado a otras funciones con el fin de limpiar el texto de entrada.
:param texto: texto sin procesar
:return: Texto procesado y limpiado
"""
# Eliminar etiquetas y hashtags
texto = self.normalizar(texto)
texto = self.eliminar_etiquetados(texto)
texto = self.eliminar_emojis(texto)
texto = self.eliminacion_data_inutil(texto)
texto = self.stop_words(texto)
texto = self.lematizacion(texto)
#texto = self.eliminar_duplicados(texto)
return texto
Toma una cadena, elimina emojis, elimina datos inútiles, normaliza, lematiza,
elimina palabras vacías y elimina duplicados.
:param texto: El texto a procesar
:return: El texto preprocesado.
"""
try:
texto = self.eliminar_etiquetados(texto)
texto = self.eliminar_emojis(texto)
texto = self.eliminacion_data_inutil(texto)
texto = self.normalizar(texto)
texto = texto.split(" ")
texto = self.lematizacion(texto)
texto = " ".join(texto)
texto = self.stop_words(texto)
texto = self.eliminar_duplicados(texto)
return texto
except:
return ""

def eliminar_etiquetados(self, texto):
"""
Expand Down Expand Up @@ -156,7 +159,12 @@ def lematizacion(self, words):
return new_words

def correccion_ortografica(self, texto):
# Una función que corrige la ortografía de una palabra.
"""
Toma una cadena y corrige la palabra si es necesario
:param texto: El texto a corregir
:return: Una cadena con el texto corregido.
"""
arr = texto.split(" ")
result = ""
for palabra in arr:
Expand Down Expand Up @@ -194,4 +202,10 @@ def normalizar(self, texto):
return texto

def eliminar_duplicados(self, lista):
"""
Toma una lista como argumento y devuelve una lista con todos los duplicados eliminados
:param lista: lista de cadenas
:return: Una lista de elementos únicos de la lista.
"""
return list(set(lista))

0 comments on commit 94c2124

Please sign in to comment.