Anthropic anuncia novo LLM capaz de trabalhar e jogar Pokémon por horas

Resumo

A Anthropic anunciou nesta quinta-feira (22/05) os novos LLMs Claude Opus 4 e Claude Sonnet 4.
O Opus 4 operou por sete horas e jogou Pokémon sem intervenção humana. Nos testes, superou em programação e agentes o Gemini 2.5 Pro, GPT-o3 reasoning e GPT-4.1.
O Sonnet 4, com desempenho inferior, é o único disponível na versão gratuita, enquanto Opus 4 é exclusivo para assinantes do serviço.

A Anthropic anunciou nesta quinta-feira (22/05) novos LLMs do Claude, sua IA generativa. Os novos LLMs são o Claude Opus 4 e Claude Sonnet 4, modelos híbridos de capacidade de raciocínio voltados para atividades de programação e agentes de IA. No anúncio dos modelos, a empresa destacou que o Opus 4 conseguiu “trabalhar” sozinho por sete horas ininterruptas — e também jogar Pokémon.

O tempo de trabalho do LLM Claude Opus 4 representa um grande avanço nos planos de ampliar a automatização de trabalhos. A IA conseguiu atuar por praticamente um turno de trabalho sem a necessidade de supervisão humana.

Não por menos, o Claude Opus 4 é o modelo mais potente lançado pela Anthropic hoje — o nome Opus é usado nos LLMs topo de linha da empresa, que possui ainda o Sonnet (intermediário) e Raiku (entrada).

Quais os principais pontos do Claude Opus 4?

Segundo a Anthropic, o Claude Opus 4 é a melhor IA do mundo para trabalhos de programação. Essa declaração da empresa tem como exemplo o já citado desempenho de sete horas seguidas atuando em uma tarefa. E, seguindo a tendência de mercado, a Anthropic destaca o desempenho do LLM Opus 4 nas atividades de agente de IA.

Uma tabela compara o desempenho de diferentes modelos de linguagem de inteligência artificial em várias categorias. As colunas são: "Claude Opus 4", "Claude Sonnet 4", "Claude Sonnet 3.7", "OpenAI Q3", "OpenAI GPT-4.1" e "Gemini 2.5 Pro (Preview 05-06)". Os valores são apresentados em porcentagens. — Anthropic publicou uma tabela comparativa do desempenho do Opus 4 e Sonnet 4 contra concorrentes (imagem: divulgação)

Nos benchmarkings, o Claude Opus 4 superou o Gemini 2.5 Pro, GPT-o3 reasoning e GPT-4.1 em testes de programação e outros testes de desempenho como agente de IA. Um ponto forte do LLM é a capacidade de manter na sua memória informações importantes sobre tarefas e sistemas.

Essa habilidade é mostrada em uma gameplay de Pokémon. O Claude Opus 4 teve acesso à parte do código do jogo e gerou um guia sobre o que fazer para jogar, indicando também alternativas para sair mais rápido de pontos em que ele fica perdido.

O Claude Sonnet 4 tem o mesmo foco do Opus 4, porém com desempenho inferior. O Sonnet 4 é o único disponível para quem utiliza o Claude gratuito. Já o Opus 4 está liberado para os assinantes do serviço.

Com informações da Anthropic, do The Verge e 9to5Mac

Anthropic anuncia novo LLM capaz de trabalhar e jogar Pokémon por horas