sexta-feira, 24 de outubro de 2025

O corpo moral das deepfakes. Semiologia da pureza e da culpa no ativismo mediático


O médico clínico, que exercita o seu "olho clínico", tem mais facilidade de distinguir o original de uma deepfake. Olho clínico é uma antiga expressão aplicada aos médicos que tinham a capacidade de identificar, rapidamente, uma doença, mesmo sem dispor de bons recursos para se chegar a um diagnóstico. Constitui-se em complexo processo cognitivo em busca do diagnóstico, de forma consciente ou inconsciente, rápido, capaz de identificar indícios e encontrar pistas para tirar as melhores conclusões tanto com relação à doença como ao paciente. Não é adivinhação ou intuição e, se a tomada de decisão for correta, pode-se dizer que o médico tem "olho clínico". Este artigo é uma breve nota que faz a transposição da semiologia clínica para a semiologia simbólica num campo mais alargado conhecido por semiótica.

Deepfakes (uma junção de 'deep learning' e 'fake') -- são imagens, vídeos ou áudio que foram editados ou gerados usando inteligência artificial, ferramentas baseadas em IA ou software de edição de áudio e vídeo. Eles podem retratar pessoas reais ou fictícias e são considerados uma forma de construção sintética mediática, ou seja, criação por parte sistemas de inteligência artificial, combinando vários elementos de artefacto mediático.


Embora o ato de criar conteúdo falso não seja novo, os deepfakes aproveitam exclusivamente as técnicas de aprendizagem de máquina e inteligência artificial, incluindo algoritmos de reconhecimento facial e redes neurais artificiais, como autocodificadores variacionais (VAEs) e redes adversárias generativas (GANs). Por sua vez, o campo da análise forense de imagens tem trabalhado para desenvolver técnicas para detectar imagens manipuladas. Os deepfakes atraíram ampla atenção por seu uso potencial na criação de material de abuso sexual infantil, vídeos pornográficos de celebridades, pornografia de vingança, notícias falsas, boatos, bullying e fraude financeira.

Do entretenimento tradicional aos jogos, a tecnologia deepfake evoluiu para ser cada vez mais convincente e disponível ao público, permitindo a interrupção das indústrias de entretenimento e média. Em resposta, a indústria de tecnologia da informação e os governos propuseram recomendações e métodos para detectar e mitigar o seu uso. A pesquisa académica também se aprofundou nos fatores que impulsionam o engajamento de deepfake online, bem como possíveis contramedidas à aplicação maliciosa de deepfakes.

No ativismo contemporâneo que circula nas redes sociais, o gesto substituiu o argumento. E o corpo, como liturgia, tornou-se o principal veículo da moralidade pública. O novo espaço público mediático favorece a performance em detrimento da reflexão. Estamos perante a semiologia de um mundo moralmente exausto, saturado de emoções. Nas atuais sociedades contemporâneas as emoções tornaram-se ruído. A confusão entre compaixão e complacência transformou o sentido de responsabilidade em “moral do espetáculo”.

Medicina e fotografia ensinam uma coisa em comum: a atenção ao real. O olhar clínico e o olho fotográfico têm ambos a sensibilidade à autenticidade da presença. Aquela imperceptível vibração que a IA ainda não domina completamente. Os vídeos gerados por IA já estão a ultrapassar a fase do “quase”. Já falta pouco para que seja impossível distinguir o real do sintético a olho nu. O movimento do olhar, a luz da íris, o timbre da voz e até as imperfeições espontâneas do corpo já estão a ser modeladas por redes generativas multimodais com precisão quase biológica. O que distinguirá o verdadeiro do falso não será o olhar, mas a confiança nas fontes e nos protocolos de verificação. Uma espécie de “ética digital da autenticidade”. Paradoxalmente, a verdade deixará de estar visível e passará a ser certificada (talvez com selos de origem digital, rastreabilidade criptográfica, etc.).

Algo que a IA não terá: a intuição empática do humano real, aquela capacidade de perceber que, por trás de um rosto, há ou não há alma? A prosódia (ou intonation, como dizem os ingleses) é uma das fronteiras mais delicadas da detecção de deepfakes e vídeos gerados por IA. A prosódia inclui: ritmo da fala; ênfases e acentuações; modulação tonal e variação da frequência da voz. Pausas naturais e respirações. Esses elementos transmitem emoção, intenção, tensão e autenticidade. Mesmo que um vídeo pareça perfeito visualmente, o padrão de entonação humano é extremamente difícil de replicar de forma convincente, especialmente em discursos longos ou improvisados.

Modelos generativos de voz (como TTS avançado) conseguem produzir voz convincente em frases curtas ou roteirizadas. Mas manter consistência emocional, variação natural da respiração e micropausas de um humano real durante minutos ainda é complicado. Além disso, a prosódia humana tem microflutuações imprevisíveis que refletem cognição e emoção simultâneas. Algo que os algoritmos tendem a suavizar ou padronizar, criando um efeito “um pouco artificial” quando analisado cuidadosamente. Pesquisadores usam técnicas como: análise espectral da voz para ver padrões de frequência que não ocorrem naturalmente. Marcas de sincronização labial vs. som produzido (microdesalinhamentos são comuns em deepfakes). Ritmo e pausas comparados com padrões humanos normais. Entropia da fala: humanos têm pequenas variações imprevisíveis, IA tende a ser mais regular Combinando esses sinais com análise facial, microexpressões e gestual, torna-se possível detectar deepfakes mesmo quando visualmente perfeitos. A IA vai melhorar muito na prosódia, conseguindo simular emoção com maior naturalidade. Mas a leitura combinada -- facial, gestual, prosódica, respiratória -- ainda fornece pistas subtis que humanos treinados conseguem perceber melhor do que qualquer detector automático atual.

Uma pessoa que disfarça o seu sotaque da sua origem rural, desmascara-se com o stress ou estado emocional? Isto é uma observação que tem forte respaldo na linguística e na psicologia da fala. Um sotaque regional ou rural é um hábito motor de fala profundamente enraizado. Ao longo da vida, muitas pessoas aprendem a “neutralizar” ou disfarçar o sotaque, especialmente em contextos urbanos ou formais. Esse esforço consciente envolve controlo da articulação, ritmo, entonação e escolha lexical. Sob stress, emoção intensa ou fadiga cognitiva, o cérebro reduz a capacidade de manter a compensação consciente. Isso faz com que microflutuações do sotaque original reapareçam: vogais alongadas ou encurtadas típicas da região, ritmo da frase mais característico, entonação e cadência típicas da fala rural. Em termos clínicos, é como se o sotaque fosse um “traço motor automático emocionalmente carregado”. Aparece quando a atenção consciente diminui.

Psicólogos e linguistas chamam isso de leakage emocional linguístico (linguistic leakage). Para alguém treinado no olhar clínico e na percepção semiótica, essas microvariações são sinais de: estado emocional (stress, ansiedade, excitação) identidade de origem ou social (aquela “voz interior” que o indivíduo tenta esconder). É por isso que atores experientes, políticos e apresentadores de TV às vezes “delatam” a sua origem ou emoções em momentos de pressão. Mesmo em vídeos manipulados por IA, reproduzir essas microvariações sob stress ou emoção prolongada é extremamente difícil. Por isso, ouvindo alguém falar de forma natural e espontânea, o ouvido treinado consegue perceber pequenos “desvios” que indicam autenticidade ou tensão emocional real.

Sem comentários:

Enviar um comentário