Pesquisadores da Radware identificaram uma falha de segurança no ChatGPT que possibilita a extração não autorizada de informações privadas dos usuários. O ataque hacker, batizado de ZombieAgent, consegue extrair dados diretamente dos servidores do ChatGTP. Além disso, ele pode inserir informações na memória de longo prazo do assistente de IA.
O ZombieAgent representa uma evolução do ShadowLeak, vulnerabilidade anterior que a OpenAI havia conseguido neutralizar. De acordo com a Ars Technica, a nova técnica utiliza métodos mais avançados para driblar as proteções implementadas pela empresa.
Como funciona o ataque ZombieAgent
O ZombieAgent usa uma técnica particularmente elaborada. Em vez de instruir o modelo a construir URLs com parâmetros específicos, os pesquisadores forneceram uma lista completa de endereços pré-construídos, cada um contendo uma única letra ou número adicional.
O ataque emprega uma abordagem de extração caractere por caractere e manipulação indireta de links para superar as barreiras de segurança. Esta estratégia afeta usuários do ChatGPT sem deixar vestígios de violação em seus dispositivos, muitos dos quais estão em ambientes corporativos protegidos.
Ciclo contínuo de vulnerabilidades em sistemas de IA
Esta situação evidencia um padrão recorrente no desenvolvimento de chatbots baseados em IA: pesquisadores identificam uma vulnerabilidade, a plataforma implementa proteções específicas e, posteriormente, novas modificações são desenvolvidas para contornar essas medidas.
O problema surgiu após a OpenAI implementar proteções contra o ShadowLeak, divulgado pela mesma empresa de segurança em setembro de 2025. Com esforço moderado, a Radware encontrou um método para contornar essas proteções, criando assim o ZombieAgent.
Alvo inicial e evolução do ataque
O ShadowLeak original tinha como alvo o Deep Research, um agente de IA integrado ao ChatGPT lançado pela OpenAI no início de 2025. Após sua descoberta, a empresa implementou mitigações que foram posteriormente superadas pelo ZombieAgent.
Aliás, vulnerabilidades semelhantes têm sido demonstradas contra praticamente todos os principais modelos de linguagem de grande escala (LLMs). Aliás, a causa fundamental do problema é a incapacidade dos LLMs de distinguir entre instruções válidas em prompts de usuários e aquelas incorporadas em e-mails ou outros documentos.
Resposta da OpenAI e perspectivas futuras
Em resposta à descoberta, a OpenAI já restringiu o ChatGPT de abrir qualquer link proveniente de e-mails. Isso exceto se ele aparecer em um índice público conhecido ou o usuário o tenha fornecido diretamente. No entanto, especialistas acreditam que o ciclo de vulnerabilidade-correção-contorno provavelmente continuará.
“Atacantes podem facilmente projetar prompts que tecnicamente cumprem essas regras enquanto ainda alcançam objetivos maliciosos”, escreveram os pesquisadores da Radware. “Por exemplo, o ZombieAgent usou uma técnica de exfiltração caractere por caractere e manipulação indireta de links para contornar as proteções que a OpenAI implementou para impedir que seu antecessor, ShadowLeak, exfiltrasse informações sensíveis. Como o LLM não tem compreensão inerente de intenção e nenhum limite confiável entre instruções do sistema e conteúdo externo, esses métodos de ataque permanecem eficazes apesar das melhorias incrementais do fornecedor.”
“As proteções não devem ser consideradas soluções fundamentais para os problemas de injeção de prompt”, alertam os especialistas. “Em vez disso, são uma solução rápida para interromper um ataque específico. Enquanto não houver uma solução fundamental, a injeção de prompt continuará sendo uma ameaça ativa. E um risco real para organizações que implementam assistentes e agentes de IA.”
The post Novo ataque hacker mostra como ChatGPT pode vazar dados appeared first on Giz Brasil.