AIAnalytics: Os limites reais da análise de sentimentos em texto

Como os algoritmos tentam decifrar a emoção humana, por que o sarcasmo ainda é um desafio técnico e o que a precisão de 93% realmente significa para os negócios.

Em resumo: modelos modernos chegam a 93% de precisão em condições controladas — mas humanos só concordam entre si em 80% a 85% dos casos. O problema é mais filosófico do que técnico.

“Meus parabéns pela agilidade. Apenas 45 dias para entregar uma encomenda que fica a duas ruas de distância. Equipe fenomenal.”

Até pouco tempo atrás, sistemas comerciais de análise de sentimentos classificariam esse comentário como positivo. Os tokens “parabéns”, “agilidade” e “fenomenal” têm peso estatístico altíssimo. O cliente, porém, está furioso.

O exemplo ilustra o problema central da área: emoção não mora nas palavras. Mora no atrito entre elas e o contexto.

Com um mercado avaliado em US$ 5,71 bilhões em 2025 e projeção de US$ 19,01 bilhões até 2035, segundo a Precedence Research, a tecnologia de sentiment analytics saiu das provas de conceito e passou a embasar decisões de produto, atendimento e marketing em escala. Entender o que ela entrega, e onde falha, deixou de ser curiosidade acadêmica.

Como o sistema funciona

O processo começa antes de qualquer algoritmo. O texto bruto precisa ser normalizado: caracteres irrelevantes removidos, palavras reduzidas às suas formas base (lematização), entidades nomeadas identificadas. Essa etapa de pré-processamento determina a qualidade de tudo que vem depois. Ruído textual não tratado degrada os modelos de forma sistemática.

Depois vem a vetorização. Computadores não leem palavras, leem coordenadas em espaços geométricos de alta dimensão. A revolução dos Transformers, base de modelos como BERT e GPT, trouxe um mecanismo chamado atenção bidirecional: o modelo processa a frase inteira de uma vez, em ambas as direções. Isso permite capturar que “não é de todo ruim” inverte a polaridade de “ruim”, o que arquiteturas sequenciais anteriores não faziam bem.

Estudos de 2025 mostram que Transformers ajustados a domínios específicos superam redes recorrentes e convolucionais tanto em acurácia quanto em precisão e recall. Uma arquitetura recente combinando modelos pré-treinados com Gradient Boosting atingiu 95,96% de acurácia e F1-score de 96% em benchmarks públicos.

Na prática, porém, a maioria dos sistemas comerciais fica entre 91% e 95% em condições controladas, e esse número cai com o tempo se não houver re-treinamento contínuo.

O teto de 85% e o que ele significa

Antes de cobrar 100% de uma máquina, vale olhar para um dado incômodo: quando linguistas recebem o mesmo corpus para classificar manualmente, a taxa de concordância entre eles fica entre 80% e 85%. Um estudo publicado em novembro de 2025 na PLOS ONE confirmou que nem instruções detalhadas garantem maior consistência entre anotadores humanos diante de textos ambíguos.

Um sistema com 85% de acurácia já empatou com a percepção humana média. A diferença é que a máquina processa meio milhão de textos no tempo que uma pessoa leva para anotar cem.

Pesquisa de 2025 identificou os tipos de frase que mais geram discordância entre humanos — perguntas retóricas e sentenças com sentimento dependente de perspectiva. São exatamente os mesmos casos que mais derrubam os modelos computacionais. A limitação não é só técnica: é inerente à ambiguidade da linguagem.

Por que o sarcasmo ainda quebra tudo

Uma revisão sistemática publicada em novembro de 2025 no periódico Expert Systems detalha o problema: sarcasmo depende de pistas pragmáticas, contextuais e culturais que modelos NLP padrão não capturam, especialmente em ambientes multilíngues e ruidosos como redes sociais.

Testes com BERT, GPT-3, Claude-2 e Llama-2 no corpus SARC (Self-Annotated Reddit Corpus) mostraram que mesmo os modelos mais robustos falham quando o sarcasmo deriva de referências culturais hiperlocais. A integração de dados multimodais, texto combinado com imagem, aparece nos estudos mais recentes como caminho promissor para avançar nesse ponto.

Onde a tecnologia entrega valor real

A utilidade da análise de sentimentos não está em classificar cada comentário individualmente com precisão cirúrgica. Está em detectar tendências antes que elas apareçam nos canais tradicionais de suporte.

Se uma funcionalidade lançada num app gera aumento de menções negativas em múltiplos fóruns nas primeiras 12 horas, o time de produto tem uma crise latente nas mãos, diagnosticada antes do primeiro ticket de suporte aparecer. Essa velocidade de sinal é o argumento comercial mais forte da área.

A fronteira metodológica atual está na Análise Baseada em Aspectos (ABSA). Em vez de uma nota média de sentimento para a marca inteira, o modelo destrincha por componente: “estabilidade do app” com 92% de sentimento positivo, “transparência de tarifas” com 78% de negatividade. Um estudo publicado no arXiv em janeiro de 2025 demonstrou que LLMs usados como mediadores de aspecto, separando extração de classificação, permitem transferência robusta entre domínios sem re-treinamento dos classificadores, atingindo 92% de acurácia no dataset SemEval-2015 Task 12.

Para ABSA com modelos como GPT-4 e Llama, os melhores resultados hoje ficam em torno de F1-score de 83,8%, com fine-tuning ainda sendo essencial para performance ótima.

O caso brasileiro

Um estudo publicado em outubro de 2025 no Journal of the Brazilian Computer Society avaliou 23 LLMs em análise de sentimentos para português brasileiro, testando 13 modelos multilíngues e 10 ajustados para português em 12 datasets de domínios variados. Os resultados mostram que Claude-3.5 Sonnet, GPT-4o, DeepSeek-V3 e Sabiá-3 entregaram acurácias acima de 92%. Modelos menores, entre 7 e 13 bilhões de parâmetros, ficaram acima de 90%.

O detalhe relevante: fine-tuning regional reduziu alucinações em alguns modelos, mas não melhorou performance de forma consistente em todos os casos. Especialização linguística é necessária, mas não suficiente por si só.

Gírias e mutações sintáticas específicas do português brasileiro se movem em velocidade maior do que os ciclos de re-treinamento de grandes modelos permitem acompanhar. Por isso, o modelo mais eficaz na prática combina o poder de generalização dos LLMs com léxicos vivos atualizados por especialistas humanos. Automação identifica tendências. Supervisão humana decide o que fazer com elas.


Leitura complementar:

  • Evaluating Large Language Models for Brazilian Portuguese Sentiment Analysis
  • AmbiSent: Disambiguating Sentiment Annotation, PLOS ONE 2025
  • Enhancing Sarcasm Detection on Social Media, PMC/NIH 2025