Relatórios internos sobre o GPT-5.2, conhecido como Thinking, indicam avanços que vão além de simples ganhos incrementais. As métricas sugerem saltos significativos em raciocínio, compreensão de contexto e desempenho em tarefas complexas.
Desempenhos que chamam atenção
- AIME 2025: 100,0%. Resolvido. Trata-se de um teste matemático avançado que, para este modelo, sinaliza que a parte competitiva da matemática está, na prática, resolvida.
- ARC-AGI-2: salto de 17,6% (GPT-5.1) para 52,9%. Um ganho expressivo em raciocínio abstrato e generalização, historicamente a fraqueza crucial das LLMs.
- GDPval (Trabalho de Conhecimento): de 38,8% para 70,9%. Métrica que tem peso direto para a economia.
Isso demonstra que tanto o dimensionamento quanto a capacidade de raciocínio estão avançando, com o modelo explorando os limites do raciocínio aplicado na prática. Embora o grupo Thinking seja mais lento para tarefas cotidianas, ele promete grande valor em inovação. Os lançamentos duplos indicam que ambos caminhos continuam ativos, com a expectativa de surgir um “melhor dos dois” que desbloqueie algo ainda maior.
No âmbito econômico, o GDPval cobre 44 tarefas bem definidas de conhecimento. O lançamento está sendo implementado aos poucos para avaliarmos se os casos de uso batem com os números apresentados. Além do Thinking, o pacote também inclui GPT-5.2 Instant e Pro.
OpenAI afirma que o GPT-5.2 traz avanços significativos em inteligência geral, compreensão de contexto prolongado, uso de ferramentas com atuação autônoma e visão — tornando-o mais capaz de executar tarefas complexas do mundo real de ponta a ponta do que qualquer modelo anterior.