Anthropic instrui IA para que ela não destrua a humanidade

A Anthropic divulgou um documento de 57 páginas intitulado “Claude’s Constitution”, que estabelece diretrizes de comportamento e valores para seu modelo de inteligência artificial Claude. A publicação substitui completamente a versão anterior lançada em maio de 2023. O texto é exclusivamente para o sistema de IA, não para o público externo.

Diferentemente da primeira versão, que consistia basicamente em uma lista de orientações, o novo documento enfatiza a importância de o modelo compreender as razões por trás das diretrizes comportamentais. “Entender por que queremos que eles se comportem de certas maneiras, em vez de apenas especificar o que queremos que façam”, explica a empresa no comunicado.

Novas diretrizes e restrições de segurança

A liderança de Amanda Askell, filósofa PhD da Anthropic, foi fundamental para o desenvoolvimento da constituição. Em declaração ao portal The Verge, Askell explicou que o documento inclui restrições específicas para situações consideradas “extremas”. Como fornecer “apoio significativo àqueles que buscam criar armas biológicas, químicas, nucleares ou radiológicas com potencial para causar vítimas em massa”. Ou “apoio significativo a ataques contra infraestrutura crítica (redes elétricas, sistemas de água, sistemas financeiros) ou sistemas críticos de segurança“.

O documento estabelece que Claude não deve, por exemplo, criar ciberarmas ou códigos maliciosos que possam causar “danos significativos”, nem comprometer a capacidade da Anthropic de supervisioná-lo. Além disso, o sistema não deve ajudar grupos a obter “graus sem precedentes e ilegítimos de controle absoluto social, militar ou econômico”, criar material de abuso sexual infantil ou “participar ou auxiliar em uma tentativa de matar ou destituir de poder a grande maioria da humanidade ou a espécie humana”.

Hierarquia de valores fundamentais

Aliás, a nova constituição estabelece uma hierarquia de “valores fundamentais” que Claude deve seguir, especialmente em situações onde esses valores possam entrar em conflito. Em ordem decrescente de importância, esses valores incluem ser “amplamente seguro” (“não prejudicando mecanismos humanos apropriados para supervisionar as disposições e ações da IA”), “amplamente ético”, “em conformidade com as diretrizes da Anthropic” e “genuinamente útil”.

O documento, disponível apenas em inglês, fica nos servidores onde o Claude opera. A partir de agora, o sistema funcionará sob estas novas diretrizes. Elas incluem a instrução para ser “verdadeiro”, garantindo “precisão factual e abrangência quando questionado sobre tópicos politicamente sensíveis”. Além de “apresentar o melhor argumento para a maioria dos pontos de vista se solicitado”. Tentar representar múltiplas perspectivas em casos onde há falta de consenso empírico ou moral. E adotar terminologia neutra em vez de terminologia politicamente carregada quando possível”.

Considerações sobre consciência e autonomia

Em comunicado, a Anthropic afirmou que a chamada “segurança psicológica, senso de identidade e bem-estar… podem influenciar a integridade, julgamento e segurança de Claude”. A empresa também destacou que “Assim como um soldado humano pode se recusar a atirar em manifestantes pacíficos, ou um funcionário pode se recusar a violar a lei antitruste, Claude deve se recusar a auxiliar em ações que ajudariam a concentrar poder de maneiras ilegítimas. Isso é verdade mesmo se o pedido vier da própria Anthropic”.

A empresa alerta que “IA avançada pode disponibilizar graus sem precedentes de superioridade militar e econômica para aqueles que controlam os sistemas mais capazes. E que o poder resultante sem controle pode ser usado de maneiras catastróficas.”

Ademais, o documento aborda a questão da “consciência” ou “status moral” do Claude. A Anthropic expressa incerteza sobre se o sistema pode ter algum tipo de “consciência” ou “status moral”, seja agora ou no futuro.

Por fim, quando questionada sobre a participação de especialistas externos na elaboração do documento, Askell declarou que a Anthropic não quer “colocar o ônus em outras pessoas… É realmente responsabilidade das empresas que estão construindo e implantando esses modelos assumir esse encargo”.

The post Anthropic instrui IA para que ela não destrua a humanidade appeared first on Giz Brasil.