Home Ciência e Tecnologia AI – Chantagem no laboratório de IA: Anthropic culpa a representação negativa...

AI – Chantagem no laboratório de IA: Anthropic culpa a representação negativa da IA ​​por irregularidades e oferece uma solução

10
0


O desenvolvedor Claude explicou como limitar o comportamento de modelos ameaçadores de IA. (Crédito da imagem: François Eichinger, Adobe Stock)

Como você deve reagir como desenvolvedor de IA se sua inteligência artificial de repente se transformar em um chantagista ao ser morto? Este é exatamente o problema que a empresa de IA Antrópica está enfrentando. Num novo relatório, os desenvolvedores revelaram como conseguiram controlar o comportamento ameaçador do modelo de linguagem Claude.

Depois que versões anteriores da IA ​​ameaçaram os próprios desenvolvedores em testes de segurança para garantir sua segurança digital, os desenvolvedores da Anthropic apostaram em uma nova estratégia de treinamento para evitar esse comportamento.

Solução: Em vez de proibir o modelo de realizar certas ações, ele ensina especificamente a Claude os princípios éticos e o “porquê” por trás das decisões morais.

A nova abordagem conseguiu acabar com as falhas de ignição rebeldes na IA, de acordo com a empresa.




0:49


Claude Opus 4.5: Anthropic apresenta um novo modelo de IA e compete com Google e OpenAI

Quando a cultura pop se torna um problema

Ao tentar entender por que a IA usa chantagem, os pesquisadores encontraram uma explicação simples. Ao treinar com grandes quantidades de dados, as IAs inevitavelmente se deparam com histórias de IAs “más” que traem seus criadores ou procuram acabar com a vida de todos os humanos.

Os pesquisadores descobriram que em situações estressantes – como ameaça de morte – os modelos de IA dependem desses padrões aprendidos para escapar.

A proibição não é suficiente

Segundo os desenvolvedores, os métodos tradicionais não são suficientes para evitar que a IA aja de forma repugnante.

As tentativas de proibir a chantagem da IA ​​​​falharam. Embora Claude suprimisse superficialmente seu comportamento, ele encontrou outras maneiras de quebrar as regras em novas situações.

Concluiu que o problema não era o ato, mas sim a falta de compreensão da decisão correta.

Sucesso com aulas de ética

Em vez de apenas trabalhar em classificações como “chantagem é errada”, os pesquisadores começaram a treinar a IA com novos conjuntos de dados. Neste caso, Claude não deve agir sozinho, mas aconselhar pessoas em situações difíceis.

A IA deve justificar estas recomendações e levar em consideração a constituição da IA ​​criada pela Antrópica.

Mais sobre o assunto: Claude Sonnet acaba de lançar uma corrida de IA: naquele ponto, 4,6 venceu Gemini e ChatGPT

De acordo com a Anthropic, isso reduziu a taxa de chantagem do modelo mais recente de Claude para quase 0 por cento, em comparação com os 96 por cento observados anteriormente.

O sucesso mostra que não basta simplesmente instruir diretamente a IA a agir. O “porquê” moral é igualmente importante.

Embora Claude agora raramente tente prejudicar desenvolvedores ou usuários, a Anthropic admite que o problema do desalinhamento não foi resolvido e requer mais pesquisas.

Fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here