GPT OSS en Novita AI: Accede a los modelos de código abierto de OpenAI mediante API

Tabla de contenido

Resumen del modelo y capacidades
Características principales y especificaciones técnicas
Rendimiento en benchmarks
Acceso a la API a través de Novita AI
Arquitectura y entrenamiento del modelo
Conclusión

Novita AI se complace en anunciar que GPT OSS, los innovadores modelos de lenguaje de peso abierto de OpenAI, ya están disponibles a través de nuestra API de inferencia. La familia GPT OSS consta de dos modelos de razonamiento de última generación: gpt-oss-120b y gpt-oss-20b. Ambos se publican bajo la licencia Apache 2.0.

Según OpenAI, este lanzamiento es un paso significativo en su compromiso con el ecosistema de código abierto, en línea con su misión declarada de hacer que los beneficios de la IA sean ampliamente accesibles. Los modelos están diseñados para flujos de trabajo agentivos, uso de herramientas y tareas complejas de razonamiento, lo que los hace ideales para construir aplicaciones de IA sofisticadas sin las limitaciones de los sistemas propietarios.

Novita AI ofrece GPT OSS con los siguientes precios:

gpt-oss-120b: 0,10 $ entrada / 0,50 $ salida por millón de tokens

gpt-oss-20b: 0,05 $ entrada / 0,20 $ salida por millón de tokens

Resumen del modelo y capacidades

Los modelos GPT OSS son mezclas de expertos (MoE) que utilizan un esquema de cuantificación de 4 bits (MXFP4). Esto permite una inferencia rápida mientras se mantiene un bajo uso de recursos. Ambos modelos admiten razonamiento en cadena de pensamiento con niveles de esfuerzo de razonamiento ajustables, seguimiento de instrucciones y capacidades de uso de herramientas.

Modelo	Capas	Parámetros totales	Parámetros activos por token	Expertos totales	Expertos activos por token	Longitud de contexto
gpt-oss-120b	36	117B	5,1B	128	4	128k
gpt-oss-20b	24	21B	3,6B	32	4	128k

gpt-oss-120b: Razonamiento de alto rendimiento

El modelo gpt-oss-120b cuenta con 117B de parámetros totales con 5,1B de parámetros activos. Alcanza una paridad cercana con OpenAI o4-mini en benchmarks de razonamiento básicos, mientras se ejecuta de manera eficiente en infraestructura optimizada.

El modelo supera a OpenAI o3‑mini e iguala o supera a OpenAI o4-mini en programación competitiva (Codeforces), resolución general de problemas (MMLU y HLE) y llamadas a herramientas (TauBench).

Prueba gpt-oss-120b en el playground

gpt-oss-20b: Razonamiento eficiente en el borde

El modelo gpt-oss-20b contiene 21B de parámetros totales con 3,6B de parámetros activos. Está diseñado para escenarios de implementación eficiente. El modelo de 120B cabe en una sola GPU H100, mientras que el modelo de 20B se ejecuta en 16 GB de memoria y es perfecto para hardware de consumo y aplicaciones en dispositivos.

A pesar de su tamaño más pequeño, iguala o supera a OpenAI o3‑mini en benchmarks estándar, incluso superándolo en matemáticas de competición (AIME 2024 y 2025) y consultas relacionadas con la salud (HealthBench).

Prueba gpt-oss-20b en el playground

Características principales y especificaciones técnicas

Detalles de arquitectura

21B y 117B de parámetros totales con 3,6B y 5,1B de parámetros activos, respectivamente
Esquema de cuantificación de 4 bits utilizando el formato mxfp4, aplicado solo a los pesos MoE
MoE con elección de token con activaciones SwiGLU y softmax-después-de-topk para la selección de expertos
Atención RoPE con longitud de contexto de 128K en todas las capas de atención
Capas de atención alternadas: patrones de contexto completo y ventana deslizante de 128 tokens
Sumidero de atención aprendido por cabeza para mejorar el rendimiento en contextos largos

Capacidades clave

Modelos de razonamiento: Modelos solo de texto con cadena de pensamiento y niveles de esfuerzo de razonamiento ajustables (“bajo”, “medio”, “alto”)

Soporte para uso de herramientas: Soporte integrado para búsqueda web, ejecución de código Python e integración de herramientas personalizadas

Salidas estructuradas: Soporte nativo para formatos JSON, XML y otros formatos de datos estructurados con validación de esquema

Compatibilidad con Responses API: Compatibilidad total con la Responses API de OpenAI, la interfaz más avanzada de OpenAI para modelos de chat, diseñada para interacciones más flexibles e intuitivas

Licencia Apache 2.0: Máxima flexibilidad para uso comercial y de investigación. Según OpenAI, su objetivo es que sus herramientas se utilicen de forma segura, responsable y democrática, maximizando el control del usuario sobre cómo las utiliza. Al usar gpt-oss, los usuarios aceptan cumplir con todas las leyes aplicables.

Rendimiento en benchmarks

Resultados de evaluación de seguridad

OpenAI realizó pruebas de seguridad exhaustivas bajo su Marco de Preparación, incluyendo pruebas de una versión de gpt-oss-120b afinada de manera adversaria. Su metodología fue revisada por expertos externos y marca un avance en el establecimiento de nuevos estándares de seguridad para modelos de peso abierto:

Evaluaciones de capacidad escalable: OpenAI confirmó que el modelo predeterminado no alcanza sus umbrales indicativos de capacidad Alta en ninguna de las tres Categorías Rastreadas (capacidad biológica y química, capacidad cibernética y auto-mejora de IA)
Pruebas de ajuste fino adversario: Incluso con un ajuste fino robusto que aprovecha el stack de entrenamiento líder de OpenAI, gpt-oss-120b no alcanzó una capacidad Alta en riesgo biológico y químico o riesgo cibernético
Evaluación de riesgo fronterizo: Para la mayoría de las evaluaciones, el rendimiento predeterminado de los modelos abiertos existentes se acerca a igualar el rendimiento de gpt-oss-120b ajustado de forma adversaria
Revisión externa: El Grupo Asesor de Seguridad (SAG) de OpenAI revisó estas pruebas y concluyó que los modelos cumplen con los estándares de seguridad

Acceso a la API a través de Novita AI

Novita AI proporciona acceso completo a los modelos GPT OSS a través de endpoints serverless y dedicados, con total compatibilidad con la API de OpenAI.

Precios y detalles del modelo

Nombre del modelo: openai/gpt-oss-120b

Precio de entrada/salida (Novita AI):
- Entrada: 0,10 $ por millón de tokens
- Salida: 0,50 $ por millón de tokens
Tamaño de contexto: 131,072
Pruébalo ahora: Prueba gpt-oss-120b en el playground

Nombre del modelo: openai/gpt-oss-20b

Precio de entrada/salida (Novita AI):
- Entrada: 0,05 $ por millón de tokens
- Salida: 0,20 $ por millón de tokens
Tamaño de contexto: 131,072
Salida máxima: 32,768
Pruébalo ahora: Prueba gpt-oss-20b en el playground

Comienza con Novita AI

Usa el Playground (sin necesidad de codificar)

Acceso instantáneo: Regístrate y comienza a experimentar con los modelos GPT OSS en segundos
Interfaz interactiva: Prueba prompts de razonamiento complejos y visualiza las salidas de la cadena de pensamiento en tiempo real
Comparación de modelos: Compara GPT OSS con otros modelos líderes para tu caso de uso específico

Integración mediante API (para desarrolladores) Conecta GPT OSS a tus aplicaciones con la API REST unificada de Novita AI.

Opción 1: Integración directa con la API (ejemplo en Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<tu_api_key>",
)

model = "openai/gpt-oss-120b"
stream = True # o False
max_tokens = 65536
system_content = "Sé un asistente útil"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Características clave:

API compatible con OpenAI para una integración sin problemas
Control de parámetros flexible para ajustar las respuestas
Soporte de streaming para respuestas en tiempo real

Opción 2: Flujos de trabajo multiagente con OpenAI Agents SDK Construye sistemas multiagente sofisticados usando GPT OSS:

Integración plug-and-play: Usa GPT OSS en cualquier flujo de trabajo de OpenAI Agents
Capacidades avanzadas de agente: Soporte para traspasos, enrutamiento e integración de herramientas con rendimiento de razonamiento superior
Arquitectura escalable: Diseña agentes que aprovechen las capacidades unificadas de razonamiento, codificación y agentes de GPT OSS

Conéctate con plataformas de terceros

Herramientas de desarrollo: Integración fluida con IDEs y entornos de desarrollo populares como Cursor, Trae y Cline a través de API compatibles con OpenAI
Frameworks de orquestación: Conéctate con LangChain, Dify, CrewAI, Langflow y otras plataformas de orquestación de IA mediante conectores oficiales
Integración con Hugging Face: Novita AI actúa como proveedor oficial de inferencia de Hugging Face

Arquitectura y entrenamiento del modelo

Preentrenamiento y desarrollo del modelo

Los modelos se entrenaron utilizando una combinación de aprendizaje por refuerzo y técnicas informadas por los modelos internos más avanzados de OpenAI, incluidos o3 y otros sistemas fronterizos. Se entrenaron extensamente para aprovechar el uso de herramientas como parte de sus esfuerzos de razonamiento.

Optimización post-entrenamiento

Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF): Entrenamiento de alineación integral para respuestas útiles, inofensivas y honestas

Entrenamiento en seguridad: Evaluaciones de seguridad exhaustivas y pruebas adversarias para garantizar una implementación responsable

Calibración del razonamiento: Control de esfuerzo de razonamiento ajustado que permite la optimización para diferentes complejidades de tareas

Innovación técnica

Retorno histórico al código abierto: Este es el primer modelo de lenguaje de peso abierto de OpenAI desde GPT-2, lanzado hace más de cinco años, lo que representa un paso significativo en su compromiso con el ecosistema de código abierto

Arquitectura MoE avanzada: Implementación sofisticada de mezcla de expertos con enrutamiento por elección de token y patrones optimizados de selección de expertos

Cuantificación eficiente: Cuantificación nativa de 4 bits usando el formato mxfp4 que permite una inferencia rápida mientras mantiene un bajo uso de recursos, con el modelo de 120B cabiendo en una sola GPU de 80 GB y el modelo de 20B en 16 GB de memoria

Conclusión

Los modelos GPT OSS de OpenAI representan un avance en la IA de código abierto, ofreciendo capacidades de razonamiento fronterizo bajo la licencia Apache 2.0. A través de la infraestructura API de Novita AI, los desarrolladores pueden acceder a estos potentes modelos mediante endpoints serverless y dedicados con total compatibilidad con OpenAI.

Ya sea para construir flujos de trabajo agentivos, realizar investigaciones o desarrollar aplicaciones de producción, GPT OSS proporciona la base para soluciones de IA de próxima generación. Con razonamiento avanzado, soporte para uso de herramientas y licencias flexibles, estos modelos crean oportunidades sin precedentes para la innovación en IA en todas las industrias.

¿Listo para empezar? Experimenta con los modelos GPT OSS al instante en el playground de modelos de Novita AI – sin necesidad de codificar. Regístrate hoy y comienza a construir con los modelos de código abierto más avanzados de OpenAI.

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA mediante nuestra API simple, al mismo tiempo que proporciona una GPU en la nube asequible y fiable para construir y escalar.

GPT OSS en Novita AI: Accede a los modelos de código abierto de OpenAI mediante API

Resumen del modelo y capacidades

gpt-oss-120b: Razonamiento de alto rendimiento

gpt-oss-20b: Razonamiento eficiente en el borde