GPT OSS na Novita AI: Acesse os Modelos Open-Source da OpenAI via API

Índice

Visão Geral e Capacidades dos Modelos
Principais Características e Especificações Técnicas
Desempenho em Benchmarks
Acesso via API Através da Novita AI
Arquitetura e Treinamento do Modelo
Conclusão

A Novita AI tem o prazer de anunciar que o GPT OSS — os inovadores modelos de linguagem de peso aberto da OpenAI — agora estão disponíveis através da nossa API de inferência. A família GPT OSS é composta por dois modelos de raciocínio de última geração: gpt-oss-120b e gpt-oss-20b. Ambos são lançados sob a licença Apache 2.0.

De acordo com a OpenAI, este lançamento é um passo significativo no seu compromisso com o ecossistema open-source, alinhado com sua missão declarada de tornar os benefícios da IA amplamente acessíveis. Os modelos são projetados para fluxos de trabalho agentivos, uso de ferramentas e tarefas complexas de raciocínio, tornando-os ideais para construir aplicações de IA sofisticadas sem as restrições de sistemas proprietários.

A Novita AI está oferecendo o GPT OSS com os seguintes preços:

gpt-oss-120b: $0,10 de entrada / $0,50 de saída por milhão de tokens

gpt-oss-20b: $0,05 de entrada / $0,20 de saída por milhão de tokens

Visão Geral e Capacidades dos Modelos

Os modelos GPT OSS são misturas de especialistas (MoEs) usando um esquema de quantização de 4 bits (MXFP4). Isso permite inferência rápida enquanto mantém o uso de recursos baixo. Ambos os modelos suportam raciocínio em cadeia de pensamento com níveis ajustáveis de esforço de raciocínio, seguimento de instruções e capacidades de uso de ferramentas.

Modelo	Camadas	Parâmetros Totais	Parâmetros Ativos por Token	Especialistas Totais	Especialistas Ativos por Token	Comprimento de Contexto
gpt-oss-120b	36	117B	5,1B	128	4	128k
gpt-oss-20b	24	21B	3,6B	32	4	128k

gpt-oss-120b: Raciocínio de Alto Desempenho

O modelo gpt-oss-120b possui 117B parâmetros totais com 5,1B parâmetros ativos. Ele atinge quase a paridade com OpenAI o4-mini em benchmarks de raciocínio principais, enquanto opera de forma eficiente em infraestrutura otimizada.

O modelo supera o OpenAI o3‑mini e iguala ou excede o OpenAI o4-mini em competições de programação (Codeforces), resolução geral de problemas (MMLU e HLE) e chamada de ferramentas (TauBench).

Teste o gpt-oss-120b no playground

gpt-oss-20b: Raciocínio Eficiente na Borda

O modelo gpt-oss-20b contém 21B parâmetros totais com 3,6B parâmetros ativos. Ele é projetado para cenários de implantação eficiente. O modelo de 120B cabe em uma única GPU H100, enquanto o modelo de 20B roda dentro de 16GB de memória e é perfeito para hardware de consumo e aplicações em dispositivo.

Apesar de seu tamanho menor, ele iguala ou supera o OpenAI o3‑mini em benchmarks padrão, até superando em matemática de competição (AIME 2024 e 2025) e consultas relacionadas à saúde (HealthBench).

Teste o gpt-oss-20b no playground

Principais Características e Especificações Técnicas

Detalhes da Arquitetura

21B e 117B parâmetros totais com 3,6B e 5,1B parâmetros ativos, respectivamente
Esquema de quantização de 4 bits usando formato mxfp4, aplicado apenas nos pesos MoE
MoE com escolha de token com ativações SwiGLU e softmax-após-topk para seleção de especialistas
Atenção RoPE com comprimento de contexto de 128K em todas as camadas de atenção
Camadas de atenção alternadas: padrões de contexto completo e janela deslizante de 128 tokens
Pia de atenção aprendida por cabeça para melhor desempenho em contextos longos

Capacidades Principais

Modelos de Raciocínio: Modelos apenas de texto com cadeia de pensamento e níveis ajustáveis de esforço de raciocínio (“baixo”, “médio”, “alto”)

Suporte a Uso de Ferramentas: Suporte integrado para busca na web, execução de código Python e integração de ferramentas personalizadas

Saídas Estruturadas: Suporte nativo para JSON, XML e outros formatos de dados estruturados com validação de esquema

Compatibilidade com Responses API: Compatibilidade total com a Responses API da OpenAI, a interface mais avançada para modelos de chat, projetada para interações mais flexíveis e intuitivas

Licença Apache 2.0: Máxima flexibilidade para uso comercial e de pesquisa. De acordo com a OpenAI, eles visam que suas ferramentas sejam usadas de forma segura, responsável e democrática, maximizando o controle do usuário sobre como usá-las. Ao usar o gpt-oss, os usuários concordam em cumprir todas as leis aplicáveis.

Desempenho em Benchmarks

Resultados de Avaliação de Segurança

A OpenAI realizou testes abrangentes de segurança sob seu Preparedness Framework, incluindo testes de uma versão adversariamente ajustada do gpt-oss-120b. Sua metodologia foi revisada por especialistas externos e marca um avanço no estabelecimento de novos padrões de segurança para modelos de peso aberto:

Avaliações de Capacidade Escalável: A OpenAI confirmou que o modelo padrão não atinge seus limites indicativos de Alta capacidade em nenhuma das três Categorias Rastreadas (Capacidade Biológica e Química, Capacidade Cibernética e Autoaperfeiçoamento de IA)
Testes de Ajuste Fino Adversarial: Mesmo com ajuste fino robusto utilizando o stack de treinamento líder de campo da OpenAI, o gpt-oss-120b não atingiu Alta capacidade em Risco Biológico e Químico ou Risco Cibernético
Avaliação de Risco de Fronteira: Para a maioria das avaliações, o desempenho padrão de modelos abertos existentes se aproxima do desempenho ajustado adversariamente do gpt-oss-120b
Revisão Externa: O Safety Advisory Group (SAG) da OpenAI revisou esses testes e concluiu que os modelos atendem aos padrões de segurança

Acesso via API Através da Novita AI

A Novita AI fornece acesso abrangente aos modelos GPT OSS por meio de endpoints serverless e dedicados, com compatibilidade total com a API da OpenAI.

Preços e Detalhes dos Modelos

Nome do Modelo: openai/gpt-oss-120b

Preço de Entrada/Saída (Novita AI):
- Entrada: $0,10 por milhão de tokens
- Saída: $0,50 por milhão de tokens
Tamanho do Contexto: 131.072
Experimente agora: Teste o gpt-oss-120b no playground

Nome do Modelo: openai/gpt-oss-20b

Preço de Entrada/Saída (Novita AI):
- Entrada: $0,05 por milhão de tokens
- Saída: $0,20 por milhão de tokens
Tamanho do Contexto: 131.072
Saída Máxima: 32.768
Experimente agora: Teste o gpt-oss-20b no playground

Comece com a Novita AI

Use o Playground (Sem Necessidade de Codificação)

Acesso Instantâneo: Cadastre-se e comece a experimentar os modelos GPT OSS em segundos
Interface Interativa: Teste prompts de raciocínio complexos e visualize saídas de cadeia de pensamento em tempo real
Comparação de Modelos: Compare o GPT OSS com outros modelos líderes para seu caso de uso específico

Integre via API (Para Desenvolvedores) Conecte o GPT OSS às suas aplicações com a API REST unificada da Novita AI.

Opção 1: Integração Direta com a API (Exemplo em Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Principais Características:

API Compatível com OpenAI para integração perfeita
Controle flexível de parâmetros para ajuste fino das respostas
Suporte a streaming para respostas em tempo real

Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK Construa sistemas multiagente sofisticados usando GPT OSS:

Integração Plug-and-Play: Use GPT OSS em qualquer fluxo de trabalho do OpenAI Agents
Capacidades Avançadas de Agentes: Suporte para handoffs, roteamento e integração de ferramentas com desempenho de raciocínio superior
Arquitetura Escalável: Projete agentes que aproveitem as capacidades unificadas de raciocínio, codificação e agentivas do GPT OSS

Conecte-se com Plataformas de Terceiros

Ferramentas de Desenvolvimento: Integre-se perfeitamente com IDEs populares e ambientes de desenvolvimento como Cursor, Trae e Cline através de APIs compatíveis com OpenAI
Frameworks de Orquestração: Conecte-se com LangChain, Dify, CrewAI, Langflow e outras plataformas de orquestração de IA usando conectores oficiais
Integração com Hugging Face: A Novita AI atua como provedor oficial de inferência do Hugging Face

Arquitetura e Treinamento do Modelo

Pré-treinamento e Desenvolvimento do Modelo

Os modelos foram treinados usando uma combinação de aprendizado por reforço e técnicas informadas pelos modelos internos mais avançados da OpenAI, incluindo o3 e outros sistemas de fronteira. Eles foram amplamente treinados para aproveitar o uso de ferramentas como parte de seus esforços de raciocínio.

Otimização Pós-Treinamento

Aprendizado por Reforço a partir de Feedback Humano (RLHF): Treinamento abrangente de alinhamento para respostas úteis, inofensivas e honestas

Treinamento de Segurança: Avaliações extensivas de segurança e testes adversariais para garantir implantação responsável

Calibração de Raciocínio: Controle de esforço de raciocínio ajustado para otimização para diferentes complexidades de tarefas

Inovação Técnica

Retorno Histórico ao Open-Source: Este é o primeiro modelo de linguagem de peso aberto da OpenAI desde o GPT-2, lançado há mais de cinco anos, representando um passo significativo em seu compromisso com o ecossistema open-source

Arquitetura MoE Avançada: Implementação sofisticada de mistura de especialistas com roteamento por escolha de token e padrões otimizados de seleção de especialistas

Quantização Eficiente: Quantização nativa de 4 bits usando formato mxfp4 permite inferência rápida enquanto mantém o uso de recursos baixo, com o modelo de 120B cabendo em uma única GPU de 80GB e o modelo de 20B cabendo em 16GB de memória

Conclusão

Os modelos GPT OSS da OpenAI representam um avanço na IA de código aberto, oferecendo capacidades de raciocínio de fronteira sob a licença Apache 2.0. Através da infraestrutura de API da Novita AI, os desenvolvedores podem acessar esses modelos poderosos via endpoints serverless e dedicados com compatibilidade total com a OpenAI.

Seja construindo fluxos de trabalho agentivos, conduzindo pesquisas ou desenvolvendo aplicações em produção, o GPT OSS fornece a base para soluções de IA de próxima geração. Com raciocínio avançado, suporte a uso de ferramentas e licenciamento flexível, esses modelos criam oportunidades sem precedentes para inovação em IA em todos os setores.

Pronto para começar? Experimente os modelos GPT OSS instantaneamente no playground de modelos da Novita AI — sem necessidade de codificação. Cadastre-se hoje e comece a construir com os modelos open-source mais avançados da OpenAI.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construir e escalar.

GPT OSS na Novita AI: Acesse os Modelos Open-Source da OpenAI via API

Visão Geral e Capacidades dos Modelos

gpt-oss-120b: Raciocínio de Alto Desempenho

gpt-oss-20b: Raciocínio Eficiente na Borda