Skip to content

Limitações do normalizador #2

@carolcoimbra

Description

@carolcoimbra

Olá,

Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.

Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.

Muito obrigada, Carolina

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions