Home Ciência e Tecnologia AI – Chantagem no laboratório de IA: Anthropic culpa a representação negativa...

Ciência e Tecnologia

AI – Chantagem no laboratório de IA: Anthropic culpa a representação negativa da IA por irregularidades e oferece uma solução

12 maio 2026

O desenvolvedor Claude explicou como limitar o comportamento de modelos ameaçadores de IA. (Crédito da imagem: François Eichinger, Adobe Stock)

Como você deve reagir como desenvolvedor de IA se sua inteligência artificial de repente se transformar em um chantagista ao ser morto? Este é exatamente o problema que a empresa de IA Antrópica está enfrentando. Num novo relatório, os desenvolvedores revelaram como conseguiram controlar o comportamento ameaçador do modelo de linguagem Claude.

Depois que versões anteriores da IA ameaçaram os próprios desenvolvedores em testes de segurança para garantir sua segurança digital, os desenvolvedores da Anthropic apostaram em uma nova estratégia de treinamento para evitar esse comportamento.

Solução: Em vez de proibir o modelo de realizar certas ações, ele ensina especificamente a Claude os princípios éticos e o “porquê” por trás das decisões morais.

A nova abordagem conseguiu acabar com as falhas de ignição rebeldes na IA, de acordo com a empresa.

AI – Chantagem no laboratório de IA: Anthropic culpa a representação negativa da IA por irregularidades e oferece uma solução

Quando a cultura pop se torna um problema

A proibição não é suficiente

Sucesso com aulas de ética

LEAVE A REPLY Cancel reply

Quando a cultura pop se torna um problema

A proibição não é suficiente

Sucesso com aulas de ética

RELATED ARTICLESMORE FROM AUTHOR

Sementes ativas de ciclones tropicais de 96W, verifique o impacto na área RI

Acordo comercial de Sam Altman sob escrutínio do Partido Republicano antes do IPO da OpenAI

Hantavírus: Autoridades de saúde americanas criticadas pela sua passividade

LEAVE A REPLY Cancel reply

RELATED ARTICLES MORE FROM AUTHOR