ADU VERBIS: Os Detectores de textos e os falsos positivos e os falsos negativos

Por Adu Verbis

Quando surge uma nova tecnologia, é natural pensar que ela seja útil mesmo antes de saber se o que promete será de fato entregue. E, nesse caso, falo de IA, em especial do chamado detector de texto. É uma ferramenta usada na verificação de textos, com o objetivo de identificar se um texto foi feito manualmente por um ser humano ou gerado por IA.

Com a ascensão de modelos de linguagem baseados em inteligência artificial, como o ChatGPT e outros tantos, também surgiu o chamado detector gerado por IA. O impacto real do uso desses detectores no mundo da escrita, da educação e da produção intelectual vem sendo voltado para comprovar autoria ou até identificar se um texto foi plagiado. Também se aplica no que se chama de humanização de um texto. Ou seja, a própria IA confere ao texto um padrão mais humanizado. Isso quer dizer que o texto humanizado está mais propenso a erros e às nuances da escrita feita manualmente.

Qual o conceito por trás da detecção por IA? Bem, como já disse, detectores de IA são ferramentas criadas para analisar um texto e estimar a probabilidade de ele ter sido escrito por um ser humano ou por uma inteligência artificial. Em teoria, parece simples e eficiente, e promete proteger a integridade de conteúdos acadêmicos, criativos, além de identificar possíveis fraudes ou mesmo o uso indevido (num sentido fraudulento) de ferramentas automatizadas.

Vou repetir o conceito para que eu mesmo possa decorar. Essas ferramentas se baseiam em padrões linguísticos, estatísticos e estilísticos. Portanto, avaliam se há excesso de previsibilidade lexical, o que é chamado de baixa perplexidade, ou pouca variação entre frases, o que se chama de baixa burstiness, além de estruturas sintáticas que soam, por assim dizer, automatizadas.

Segundo o que li, frases como "Devemos aproveitar cada momento" ou "A felicidade está nas pequenas coisas", mesmo sendo comuns na linguagem humana, são frequentemente classificadas como coisa da IA. Isso por serem simples demais. Mas você se pergunta: e os humanos que, de fato, escrevem de maneira simples demais? E eu me pergunto: por que as ferramentas de detecção de texto logo usaram um padrão simples para estimar a validade de um texto? Penso que isso tem relação com o fato de que o ser humano, mesmo simples, é complexo em termos de linguagem.

Portanto, ferramentas como GPTZero, Turnitin AI Detector, Copyleaks e Originality.AI vêm se popularizando entre universidades, empresas e editoras. Contudo, junto com o uso frequente dessas ferramentas de detecção de texto, talvez estejam surgindo também limitações que penso que precisam ser discutidas com atenção e acuidade, para não gerar constrangimentos e injustiças com criadores de conteúdo que são honestos e se esforçam para escrever um texto, e acabar tirando o mérito do criador e dando para a IA, que apenas classifica se um texto foi escrito manualmente ou gerado por inteligência artificial.

Vou aqui ser repetitivo, mas paciência. A aplicação da ferramenta de detecção de IA, segundo especialistas em IA, tem como foco manter a transparência sobre o uso de inteligência artificial e, não obstante, coibir plágios disfarçados e garantir que produções avaliativas reflitam, de fato, o esforço do autor humano. Mas, como sempre tem um contudo e outros tantos poréns, na prática, a situação é bem complexa no tocante à eficiência dos detectores de texto.

Tanto a vida, assim como a IA, têm seus paradoxos; e paradoxos há de pintar por aí. Pois surge então o paradoxo do texto bem escrito, que antes era avaliado por seres humanos iniciados em textos complexos e criativos. Porém, hoje, os textos 100% humanos, e ditos bem escritos, com coesão e clareza, estão sendo atribuídos como coisa de IA.

Isso acontece porque, podemos dizer, ironicamente, que a boa escrita, aquela que evita o tal ruído, isto é, erros gramaticais, frases truncadas, está mais próxima dos textos humanos, e a IA se aproxima da perfeição. Claro, perfeição técnica, mas não 100% criativa.

Nesse labirinto da linguagem entre humanos e IA, e na eficiência dos detectores de texto, também existe a probabilidade dos falsos positivos – texto escrito por humano, mas a ferramenta erra e diz que foi por IA. Os falsos positivos não são raros. Escritores, estudantes, jornalistas e professores honestos, que conhecem a labuta que é construir um texto, podem ser impactados por avaliações equivocadas.

Um texto 100% autoral e, por assim dizer, artesanal pode ser invalidado por ter qualidade demais ou se aproximar do padrão de texto construído pela IA. Como diria o poeta: "Outras palavras", e, em outras palavras, quanto melhor a escrita, paradoxalmente, ela pode ser suspeita. Isso porque qualidade, no século 21 e nos demais por vir, passa a ser sinônimo de IA.

E não obstante, a IA está mais propensa a reconhecer um texto de qualidade como um texto gerado por IA, já que são poucos os seres humanos capazes de atingir a perfeição técnica de uma IA. Porém, o ser humano tem sua grande qualidade, que é a criatividade aliada a um talento nato ou a um talento fabricado pelas técnicas das oficinas de autoajuda.

Vou aqui exemplificar um caso em que o detector, ao ser testado numa verificação de texto gerado por IA e manualmente escrito por humano, confundiu os dois textos.

Vamos ao poema 1, com frases diretas e previsíveis:

A vida é feita de dias.

Alguns são bons, outros são ruins.

Devemos aproveitar cada momento.

A felicidade está nas pequenas coisas.

O resultado deu 90% gerado por IA, principalmente por conta das frases "devemos aproveitar cada momento" e "a felicidade está nas pequenas coisas". O detector leu a simplicidade como artificialidade.

Agora vamos ao poema 2, um poema ambíguo e sensorial:

Amanheceu como se o céu

tivesse esquecido de terminar a noite.

O cheiro do café não era novo,

mas parecia infância.

O resultado foi 10% IA e 90% humano. Isso por apresentar maior imprevisibilidade, metáforas e um ritmo poético que se afasta, por assim dizer, da clareza excessiva, típica de modelos automatizados. Podemos pensar que a própria natureza da escrita criativa desafia a capacidade das ferramentas de distinguir autorias com precisão.

Isso pode levar a dilemas profundos e complexos, comuns à linguagem humana nesse contato com a IA, que aprende e apreende com o humano, mas tem capacidade de superar o humano tecnicamente.

Talvez o problema dos falsos positivos seja superado no futuro, mas, por enquanto, é um dos maiores desafios dos detectores de texto gerado por IA. O julgamento feito pelos detectores é realizado com base em padrões linguísticos estatísticos, não em intenção, contexto ou autoria real. Ou seja, você pode ser 100% autor de um texto, contudo, um detector, baseado em padrão linguístico, pode dizer que você tem apenas 50% de autoria do texto.

Eu sou um tipo eticamente neurótico. Se eu faço uma coisa e essa coisa se desviar 0,01% do meu padrão ético, eu fico louco por achar que fiz alguma coisa errada. Pois eu passei a usar IA para revisar meus textos, isso porque não tenho uma formação acadêmica 100% decente. E, nessas revisões, descobri por meio das verificações usando detector de texto que meus textos foram contaminados pelo padrão da IA através das revisões. Portanto, eu fiquei neurótico com isso.

Um exemplo que percebi nos meus textos revisados por IA e verificados com ferramentas como o Grammarly, ou o próprio GPTZero, é que, mesmo que a ideia, estrutura e conteúdo sejam totalmente autorais, o uso de ferramentas auxiliares de correção levava a uma classificação automática como IA, gerando assim insegurança e desqualificação injusta do texto. Um exemplo de texto que eu escrevi, e que na revisão deu como suspeito por ser classificado como se fosse gerado por IA:

"Mesmo assim, sigo tentando entender esse mundo volátil. E, nos últimos dias, uma dúvida ficou martelando na minha cabeça: afinal, a frutose é vilã ou aliada?"

O trecho acima, mesmo sendo claramente, inclusive com meu tom coloquial e hesitante, foi marcado como "suspeito" (gerado por IA). Ou seja, a sensibilidade, o ritmo da dúvida, a cadência pessoal, tudo isso se perdeu nos cálculos da ferramenta de verificação de texto.

Devemos pensar e repensar o papel dos detectores e torcer para que os detectores não punam os criadores de textos que labutam diariamente para construir um texto. Porque escrever não é tão simples como jogar uma ideia na IA e ela transformar num texto que apresenta conceito e forma, mas não apresenta o sentimento e a emoção vividos por cada criador de texto. Escrever um texto é mais do que escrever um texto, isso se você me entende.

Eu considero a IA como um projeto dadaísta que vem encantando com seus conteúdos dadaístas. Portanto, a questão não é se devemos usar detectores de IA, mas como e quando. Se mal aplicadas, essas ferramentas deixam de proteger a integridade acadêmica e passam a violar a integridade dos autores honestos e trabalhadores. Pois, em vez de combater a fraude, podem também marginalizar produções legítimas, principalmente de autores que dominam bem a escrita.

Isso porque a IA vem dominando a escrita tecnicamente e construindo um padrão refinado. E os textos refinados, verificados pelos detectores de texto, podem se tornar "suspeitos" perante a IA. A IA não pode tirar os méritos humanos pra si.

Podemos pensar que a escrita do futuro será uma escrita híbrida e com o apoio de editores de IA. Quero dizer com isso que os editores de IA não podem usurpar pra si a linguagem humana, mas, se possível, ajudar a detectar os criadores desonestos intelectualmente.

Os detectores têm seu valor, mas quem utiliza os detectores precisa ter capacidade de ir além de uma verificação feita por IA e não deixar que os detectores se tornem os juízes definitivos. A leitura humana, o olhar crítico e o contexto precisam ter prioridade.

Num cenário onde a IA se torna cada vez mais presente no processo criativo, o desafio não é só identificar quem escreveu, mas como escreveu e por quê. Afinal, nem toda frase clara é artificial. Nem todo paradoxo é indecifrável. Nem todo texto rebuscado é humano, mas o ser humano tem um estilo próprio em seu rebuscamento. E a boa escrita, com ou sem IA, deve continuar.

O que não pode é a IA punir injustamente autores que trabalham honestamente pra escrever um texto.