-
Notifications
You must be signed in to change notification settings - Fork 2
Description
Olá,
Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.
Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.
Muito obrigada, Carolina