Novita AI의 GPT-OSS 엔드포인트: 최고 수준의 성능

Novita AI에서는 개발자들이 최고의 AI 모델을 빠르고, 안정적이며, 저렴하게 이용할 수 있도록 최선을 다하고 있습니다. OpenAI가 오픈소스 모델인 GPT-OSS 120B와 20B를 출시했을 때, 당사는 같은 날에 두 모델 모두를 호스팅했습니다. 하지만 모델을 단순히 배포하는 것만으로는 부족합니다. 그래서 엔지니어링 팀은 한 주 전체를 뛰어난 사용자 경험을 제공하기 위한 GPT-OSS 엔드포인트 최적화라는 단 하나의 목표에 집중했습니다.

그 결과는? 당사의 엔드포인트는 AI 모델 및 호스팅 제공업체에 대한 독립적인 분석 플랫폼인 Artificial Analysis로부터 업계 최고 수준의 성능을 인정받았습니다.

제목: GPT OSS 120B
출처: Hugging Face

GPT-OSS-120B란 무엇인가요?

GPT-OSS-120B는 2025년 8월에 출시된 OpenAI의 새로운 오픈 웨이트 모델로, 1170억 개의 매개변수를 가진 전문가 혼합(MoE) 아키텍처를 특징으로 합니다. 토큰당 해당 매개변수의 일부만 활성화하여 효율적인 추론을 가능하게 하면서도 강력한 추론 능력을 유지합니다. 이 모델은 도구 사용, 확장 컨텍스트 창, 복잡한 추론과 같은 고급 기능을 지원하며, 모두 Apache 2.0 라이선스 하에 제공됩니다.

과제: 균형 잡기

GPT-OSS 120B와 같은 LLM을 호스팅하려면 여러 지표를 동시에 균형 있게 조정해야 합니다. 당사는 몇 가지 핵심 지표를 동시에 최적화해야 했습니다:

지연 시간(Latency): 모델이 사용자의 요청에 얼마나 빠르게 응답하는가? 특히 첫 번째 토큰이 생성되기까지의 시간이 짧을수록 좋은 대화형 사용자 경험에 필수적입니다.
처리량(Throughput): 당사 엔드포인트가 초당 몇 개의 토큰을 처리할 수 있는가? 높은 처리량은 속도를 보장하며, 이는 사용자 경험에 직접적인 영향을 미칩니다.
컨텍스트 창(Context Window): 모델이 길고 복잡한 프롬프트를 처리할 수 있는가? GPT-OSS 모델은 무려 131,072 토큰의 컨텍스트 창을 가지고 있으므로, 당사는 배포가 해당 기능을 완전히 지원하도록 해야 했습니다.
모델 품질: 최적화가 함수 호출(도구 호출이라고도 함) 및 구조화된/JSON 출력과 같은 모델의 핵심 기능을 유지하는가? 당사는 추론 기능을 활성화했으며, 배포 과정에서 오류가 발생하거나 모델의 정확도/추론 능력이 저하되지 않도록 확인했습니다.

성과: 달성한 결과

노력의 결실을 맺었습니다. Novita의 엔드포인트는 Artificial Analysis의 GPT-OSS-120B (고성능) API 제공업체 성능 벤치마킹 및 분석 보고서에서 높은 순위를 기록했습니다. 당사는 AIME(American Invitational Mathematics Examination) 및 GPQA(Graduate-Level Google-Proof Q&A) 추론 벤치마크에서 최고 성능을 인정받았습니다. Novita는 가장 높은 정확도 점수를 기록했을 뿐만 아니라, 더욱이 비용은 최저 수준이었습니다.