You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.
Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.
Muito obrigada, Carolina
The text was updated successfully, but these errors were encountered:
Obrigado pelo feedback.
Entendo, de fato é uma limitação. Uma forma possível de se contornar este problema seria adicionando essas palavras à lista de estrangeirismos ou de nomes próprios. Quaisquer entradas que estiverem nessas listas são adicionadas ao léxico considerado pelo spell-chcker. Assim elas não serão alteradas se estiverem escritas corretamente, e poderão ser corrigidas caso contrário.
Estando nessa lista eles poderão ser corrigidos também se estiverem errados, testei http://143.107.183.175:13180/ugcnormal:
gostei do filme pulpi ficton --> Gostei do filme Pulp Fiction
Olá,
Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.
Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.
Muito obrigada, Carolina
The text was updated successfully, but these errors were encountered: