Quais palavras denunciam textos de IA? Descubra como identificar textos gerados por IA

31 julho, 2024

Um novo estudo identificou as palavras-chave que podem denunciar textos gerados por IA. Utilizando a análise de milhões de resumos científicos, os pesquisadores detectaram um aumento no uso de certos termos desde o surgimento dos modelos de linguagem de grande escala.

Un libro abierto y un ordenador portátil, con palabras clave flotando entre ambos, representando el flujo de datos y la detección de textos de IA.

Já se perguntou se aquele artigo científico que você está lendo foi escrito por um humano ou por uma inteligência artificial? Pois bem, a resposta pode estar em certas palavras-chave.

Acontece que um grupo de pesquisadores desenvolveu um método bastante curioso para detectar o uso de modelos de linguagem grande (LLM) na redação científica. E como fizeram isso? Contando “palavras em excesso” que começaram a aparecer com muito mais frequência na era pós-LLM. Que maneira engenhosa de pegar a IA com as mãos na massa!

Esses cientistas se inspiraram em estudos que mediam o impacto da pandemia de COVID-19 analisando as mortes em excesso. Quem diria que o mesmo princípio poderia ser aplicado às palavras? Pois foi, e os resultados são francamente surpreendentes.

Ao que parece, o surgimento dos LLM levou a um aumento repentino na frequência de certas palavras de estilo, algo que, segundo os pesquisadores, não tinha precedentes em qualidade ou quantidade. É como se, de repente, todos os cientistas tivessem concordado em usar certas palavras mais do que outras.

Mas não para por aí. O artigo menciona que os pesquisadores analisaram nada menos que 14 milhões de resumos de artigos publicados no PubMed entre 2010 e 2024. Que trabalho! E tudo para rastrear a frequência relativa de cada palavra ao longo dos anos.

Uma mudança de estilo sem precedentes: O impacto dos modelos de linguagem na redação acadêmica

E o que nossos intrépidos pesquisadores encontraram? Que algumas palavras que antes eram extremamente raras nesses resumos científicos de repente se tornaram populares.

Por exemplo, a palavra “delves” (aprofundar) apareceu em 25 vezes mais artigos em 2024 do que se esperava de acordo com a tendência pré-LLM. Suspeito? E não é a única. Palavras como “showcasing” (mostrando) e “underscores” (ressalta) aumentaram seu uso em nada menos que nove vezes. Parece que os LLM têm suas palavras favoritas, não é?

Mas não foram apenas as palavras raras que se tornaram mais comuns. Algumas palavras já populares se tornaram ainda mais frequentes. “Potential” (potencial) aumentou 4,1%, “findings” (descobertas) 2,7%, e “crucial” (crucial) 2,6%. Será que os LLM são mais dramáticos do que os humanos ao escrever?

O mais interessante é que, antes da era LLM, essas mudanças bruscas no uso de palavras só eram vistas em eventos mundiais importantes. Vocês sabem, coisas como “ebola” em 2015 ou “pandemia” em 2020. Mas agora, de repente, há centenas de palavras que deram um salto sem motivo aparente!

E aqui vem a parte engraçada: enquanto as palavras “em excesso” durante a pandemia de COVID eram principalmente substantivos, as palavras que aumentaram depois dos LLM são principalmente “palavras de estilo” como verbos, adjetivos e advérbios. Parece que os LLM têm uma fraqueza por adornar a linguagem, não é?

Mas atenção, isso não é tudo. Segundo as estimativas dos pesquisadores, pelo menos 10% dos resumos de 2024 foram processados com LLMs. Uau! E isso é apenas o que puderam detectar. Quem sabe? Talvez haja mais textos “artificiais” por aí que não deixaram rastros.

Enfim, o que vocês acham? Acham que chegará o dia em que precisaremos chamar os “Blade Runners” para detectar textos gerados por IA que se passam por humanos?

Deixe o primeiro comentário