A Novita AI tem o prazer de anunciar que o GPT OSS — os inovadores modelos de linguagem de peso aberto da OpenAI — agora estão disponíveis através da nossa API de inferência. A família GPT OSS é composta por dois modelos de raciocínio de última geração: gpt-oss-120b e gpt-oss-20b. Ambos são lançados sob a licença Apache 2.0.
De acordo com a OpenAI, este lançamento é um passo significativo no seu compromisso com o ecossistema open-source, alinhado com sua missão declarada de tornar os benefícios da IA amplamente acessíveis. Os modelos são projetados para fluxos de trabalho agentivos, uso de ferramentas e tarefas complexas de raciocínio, tornando-os ideais para construir aplicações de IA sofisticadas sem as restrições de sistemas proprietários.
A Novita AI está oferecendo o GPT OSS com os seguintes preços:
gpt-oss-120b: $0,10 de entrada / $0,50 de saída por milhão de tokens
gpt-oss-20b: $0,05 de entrada / $0,20 de saída por milhão de tokens
Visão Geral e Capacidades dos Modelos
Os modelos GPT OSS são misturas de especialistas (MoEs) usando um esquema de quantização de 4 bits (MXFP4). Isso permite inferência rápida enquanto mantém o uso de recursos baixo. Ambos os modelos suportam raciocínio em cadeia de pensamento com níveis ajustáveis de esforço de raciocínio, seguimento de instruções e capacidades de uso de ferramentas.
| Modelo | Camadas | Parâmetros Totais | Parâmetros Ativos por Token | Especialistas Totais | Especialistas Ativos por Token | Comprimento de Contexto |
|---|---|---|---|---|---|---|
| gpt-oss-120b | 36 | 117B | 5,1B | 128 | 4 | 128k |
| gpt-oss-20b | 24 | 21B | 3,6B | 32 | 4 | 128k |
gpt-oss-120b: Raciocínio de Alto Desempenho
O modelo gpt-oss-120b possui 117B parâmetros totais com 5,1B parâmetros ativos. Ele atinge quase a paridade com OpenAI o4-mini em benchmarks de raciocínio principais, enquanto opera de forma eficiente em infraestrutura otimizada.
O modelo supera o OpenAI o3‑mini e iguala ou excede o OpenAI o4-mini em competições de programação (Codeforces), resolução geral de problemas (MMLU e HLE) e chamada de ferramentas (TauBench).
Teste o gpt-oss-120b no playground
gpt-oss-20b: Raciocínio Eficiente na Borda
O modelo gpt-oss-20b contém 21B parâmetros totais com 3,6B parâmetros ativos. Ele é projetado para cenários de implantação eficiente. O modelo de 120B cabe em uma única GPU H100, enquanto o modelo de 20B roda dentro de 16GB de memória e é perfeito para hardware de consumo e aplicações em dispositivo.
Apesar de seu tamanho menor, ele iguala ou supera o OpenAI o3‑mini em benchmarks padrão, até superando em matemática de competição (AIME 2024 e 2025) e consultas relacionadas à saúde (HealthBench).
Teste o gpt-oss-20b no playground
Principais Características e Especificações Técnicas
Detalhes da Arquitetura
- 21B e 117B parâmetros totais com 3,6B e 5,1B parâmetros ativos, respectivamente
- Esquema de quantização de 4 bits usando formato mxfp4, aplicado apenas nos pesos MoE
- MoE com escolha de token com ativações SwiGLU e softmax-após-topk para seleção de especialistas
- Atenção RoPE com comprimento de contexto de 128K em todas as camadas de atenção
- Camadas de atenção alternadas: padrões de contexto completo e janela deslizante de 128 tokens
- Pia de atenção aprendida por cabeça para melhor desempenho em contextos longos
Capacidades Principais
Modelos de Raciocínio: Modelos apenas de texto com cadeia de pensamento e níveis ajustáveis de esforço de raciocínio (“baixo”, “médio”, “alto”)
Suporte a Uso de Ferramentas: Suporte integrado para busca na web, execução de código Python e integração de ferramentas personalizadas
Saídas Estruturadas: Suporte nativo para JSON, XML e outros formatos de dados estruturados com validação de esquema
Compatibilidade com Responses API: Compatibilidade total com a Responses API da OpenAI, a interface mais avançada para modelos de chat, projetada para interações mais flexíveis e intuitivas
Licença Apache 2.0: Máxima flexibilidade para uso comercial e de pesquisa. De acordo com a OpenAI, eles visam que suas ferramentas sejam usadas de forma segura, responsável e democrática, maximizando o controle do usuário sobre como usá-las. Ao usar o gpt-oss, os usuários concordam em cumprir todas as leis aplicáveis.
Desempenho em Benchmarks

Resultados de Avaliação de Segurança
A OpenAI realizou testes abrangentes de segurança sob seu Preparedness Framework, incluindo testes de uma versão adversariamente ajustada do gpt-oss-120b. Sua metodologia foi revisada por especialistas externos e marca um avanço no estabelecimento de novos padrões de segurança para modelos de peso aberto:
- Avaliações de Capacidade Escalável: A OpenAI confirmou que o modelo padrão não atinge seus limites indicativos de Alta capacidade em nenhuma das três Categorias Rastreadas (Capacidade Biológica e Química, Capacidade Cibernética e Autoaperfeiçoamento de IA)
- Testes de Ajuste Fino Adversarial: Mesmo com ajuste fino robusto utilizando o stack de treinamento líder de campo da OpenAI, o gpt-oss-120b não atingiu Alta capacidade em Risco Biológico e Químico ou Risco Cibernético
- Avaliação de Risco de Fronteira: Para a maioria das avaliações, o desempenho padrão de modelos abertos existentes se aproxima do desempenho ajustado adversariamente do gpt-oss-120b
- Revisão Externa: O Safety Advisory Group (SAG) da OpenAI revisou esses testes e concluiu que os modelos atendem aos padrões de segurança
Acesso via API Através da Novita AI
A Novita AI fornece acesso abrangente aos modelos GPT OSS por meio de endpoints serverless e dedicados, com compatibilidade total com a API da OpenAI.
Preços e Detalhes dos Modelos
Nome do Modelo: openai/gpt-oss-120b
- Preço de Entrada/Saída (Novita AI):
- Entrada: $0,10 por milhão de tokens
- Saída: $0,50 por milhão de tokens
- Tamanho do Contexto: 131.072
- Experimente agora: Teste o gpt-oss-120b no playground
Nome do Modelo: openai/gpt-oss-20b
- Preço de Entrada/Saída (Novita AI):
- Entrada: $0,05 por milhão de tokens
- Saída: $0,20 por milhão de tokens
- Tamanho do Contexto: 131.072
- Saída Máxima: 32.768
- Experimente agora: Teste o gpt-oss-20b no playground
Comece com a Novita AI
Use o Playground (Sem Necessidade de Codificação)
- Acesso Instantâneo: Cadastre-se e comece a experimentar os modelos GPT OSS em segundos
- Interface Interativa: Teste prompts de raciocínio complexos e visualize saídas de cadeia de pensamento em tempo real
- Comparação de Modelos: Compare o GPT OSS com outros modelos líderes para seu caso de uso específico
Integre via API (Para Desenvolvedores) Conecte o GPT OSS às suas aplicações com a API REST unificada da Novita AI.
Opção 1: Integração Direta com a API (Exemplo em Python)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Principais Características:
- API Compatível com OpenAI para integração perfeita
- Controle flexível de parâmetros para ajuste fino das respostas
- Suporte a streaming para respostas em tempo real
Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK Construa sistemas multiagente sofisticados usando GPT OSS:
- Integração Plug-and-Play: Use GPT OSS em qualquer fluxo de trabalho do OpenAI Agents
- Capacidades Avançadas de Agentes: Suporte para handoffs, roteamento e integração de ferramentas com desempenho de raciocínio superior
- Arquitetura Escalável: Projete agentes que aproveitem as capacidades unificadas de raciocínio, codificação e agentivas do GPT OSS
Conecte-se com Plataformas de Terceiros
- Ferramentas de Desenvolvimento: Integre-se perfeitamente com IDEs populares e ambientes de desenvolvimento como Cursor, Trae e Cline através de APIs compatíveis com OpenAI
- Frameworks de Orquestração: Conecte-se com LangChain, Dify, CrewAI, Langflow e outras plataformas de orquestração de IA usando conectores oficiais
- Integração com Hugging Face: A Novita AI atua como provedor oficial de inferência do Hugging Face
Arquitetura e Treinamento do Modelo
Pré-treinamento e Desenvolvimento do Modelo
Os modelos foram treinados usando uma combinação de aprendizado por reforço e técnicas informadas pelos modelos internos mais avançados da OpenAI, incluindo o3 e outros sistemas de fronteira. Eles foram amplamente treinados para aproveitar o uso de ferramentas como parte de seus esforços de raciocínio.
Otimização Pós-Treinamento
Aprendizado por Reforço a partir de Feedback Humano (RLHF): Treinamento abrangente de alinhamento para respostas úteis, inofensivas e honestas
Treinamento de Segurança: Avaliações extensivas de segurança e testes adversariais para garantir implantação responsável
Calibração de Raciocínio: Controle de esforço de raciocínio ajustado para otimização para diferentes complexidades de tarefas
Inovação Técnica
Retorno Histórico ao Open-Source: Este é o primeiro modelo de linguagem de peso aberto da OpenAI desde o GPT-2, lançado há mais de cinco anos, representando um passo significativo em seu compromisso com o ecossistema open-source
Arquitetura MoE Avançada: Implementação sofisticada de mistura de especialistas com roteamento por escolha de token e padrões otimizados de seleção de especialistas
Quantização Eficiente: Quantização nativa de 4 bits usando formato mxfp4 permite inferência rápida enquanto mantém o uso de recursos baixo, com o modelo de 120B cabendo em uma única GPU de 80GB e o modelo de 20B cabendo em 16GB de memória
Conclusão
Os modelos GPT OSS da OpenAI representam um avanço na IA de código aberto, oferecendo capacidades de raciocínio de fronteira sob a licença Apache 2.0. Através da infraestrutura de API da Novita AI, os desenvolvedores podem acessar esses modelos poderosos via endpoints serverless e dedicados com compatibilidade total com a OpenAI.
Seja construindo fluxos de trabalho agentivos, conduzindo pesquisas ou desenvolvendo aplicações em produção, o GPT OSS fornece a base para soluções de IA de próxima geração. Com raciocínio avançado, suporte a uso de ferramentas e licenciamento flexível, esses modelos criam oportunidades sem precedentes para inovação em IA em todos os setores.
Pronto para começar? Experimente os modelos GPT OSS instantaneamente no playground de modelos da Novita AI — sem necessidade de codificação. Cadastre-se hoje e comece a construir com os modelos open-source mais avançados da OpenAI.
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construir e escalar.
