Kimi-K2-Thinking, le modèle de raisonnement open source révolutionnaire de Moonshot AI, est désormais disponible sur Novita AI. Cet agent de « réflexion » de pointe combine un raisonnement multi-étapes approfondi avec une orchestration d’outils étendue, exécutant 200 à 300 appels d’outils séquentiels sans intervention humaine. Avec 1 billion de paramètres totaux, 32 milliards de paramètres activés et une fenêtre de contexte de 256 000 tokens, K2-Thinking établit de nouvelles normes en matière d’intelligence agentique tout en restant entièrement accessible en tant que modèle à poids ouverts.
Tarification actuelle de Kimi-K2-Thinking sur Novita AI : 0,60 $ par million de tokens d’entrée, 2,50 $ par million de tokens de sortie
Qu’est-ce que Kimi-K2-Thinking ?
Kimi-K2-Thinking est le modèle de raisonnement open source le plus avancé de Moonshot AI, conçu comme un « agent de réflexion » qui raisonne étape par étape tout en invoquant dynamiquement des outils. Contrairement aux modèles traditionnels de type réflexe, K2-Thinking utilise un raisonnement par chaîne de pensée étendu sur des centaines d’étapes, ce qui le rend idéal pour la résolution de problèmes complexes nécessitant une concentration soutenue et une orchestration d’outils.
Raisonnement approfondi et orchestration d’outils
K2-Thinking est entraîné de bout en bout pour entrelacer le raisonnement par chaîne de pensée et les appels de fonctions, permettant des flux de travail autonomes de recherche, de codage et de rédaction qui durent des centaines d’étapes sans dérive. Le modèle peut exécuter 200 à 300 appels d’outils séquentiels en une seule session tout en maintenant un raisonnement cohérent sur l’ensemble du processus.
Quantification INT4 native
L’entraînement conscient de la quantification (QAT) est employé lors de l’étape post-entraînement pour obtenir un gain de vitesse de 2x sans perte en mode basse latence. Cette quantification INT4 native permet à K2-Thinking de prendre en charge une inférence efficace avec une vitesse de génération approximativement doublée tout en atteignant des performances de pointe.
Fenêtre de contexte étendue
K2-Thinking prend en charge une fenêtre de contexte de 256 000 tokens, lui permettant de traiter des documents longs, de maintenir le contexte sur des conversations étendues et de gérer des tâches de raisonnement multi-tours complexes nécessitant une rétention de contexte importante.
Architecture technique et spécifications
Kimi-K2-Thinking représente une ingénierie de pointe dans l’architecture mixture-of-experts (MoE), optimisée spécifiquement pour les tâches de raisonnement :
| Spécification | Valeur |
|---|---|
| Architecture | Mixture-of-Experts (MoE) |
| Paramètres totaux | 1 billion |
| Paramètres activés | 32 milliards |
| Longueur de contexte | 256 000 tokens |
| Nombre de couches | 61 (dont 1 couche dense) |
| Mécanisme d’attention | MLA (Multi-Head Latent Attention) |
| Nombre d’experts | 384 |
| Experts sélectionnés par token | 8 |
| Taille du vocabulaire | 160 000 |
| Fonction d’activation | SwiGLU |
| Quantification | INT4 native avec QAT |
| Température recommandée | 1,0 |
Cette architecture sophistiquée permet un traitement efficace tout en maintenant la puissance totale du modèle à un billion de paramètres grâce à une sélection intelligente des experts et à la prise en charge de la quantification native.
Performances aux benchmarks : Modèle open source leader
Kimi-K2-Thinking démontre des performances exceptionnelles sur les benchmarks de raisonnement, agentiques et de codage, surpassant souvent des modèles propriétaires comme GPT-5 et Claude Sonnet 4.5 :
Tâches de raisonnement
| Benchmark | Paramétrage | K2 Thinking | GPT-5 | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 | Grok-4 |
|---|---|---|---|---|---|---|---|
| HLE (Texte uniquement) | sans outils | 23.9 | 26.3 | 19.8* | 7.9 | 19.8 | 25.4 |
| avec outils | 44.9 | 41.7* | 32.0* | 21.7 | 20.3* | 41.0 | |
| lourd | 51.0 | 42.0 | – | – | – | 50.7 | |
| AIME25 | sans outils | 94.5 | 94.6 | 87.0 | 51.0 | 89.3 | 91.7 |
| avec python | 99.1 | 99.6 | 100.0 | 75.2 | 58.1* | 98.8 | |
| lourd | 100.0 | 100.0 | – | – | – | 100.0 | |
| HMMT25 | sans outils | 89.4 | 93.3 | 74.6* | 38.8 | 83.6 | 90.0 |
| avec python | 95.1 | 96.7 | 88.8* | 70.4 | 49.5* | 93.9 | |
| lourd | 97.5 | 100.0 | – | – | – | 96.7 | |
| IMO-AnswerBench | sans outils | 78.6 | 76.0* | 65.9* | 45.8 | 76.0* | 73.1 |
| GPQA | sans outils | 84.5 | 85.7 | 83.4 | 74.2 | 79.9 | 87.5 |
Tâches générales
| Benchmark | Paramétrage | K2 Thinking | GPT-5 | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| MMLU-Pro | sans outils | 84.6 | 87.1 | 87.5 | 81.9 | 85.0 |
| MMLU-Redux | sans outils | 94.4 | 95.3 | 95.6 | 92.7 | 93.7 |
| Longform Writing | sans outils | 73.8 | 71.4 | 79.8 | 62.8 | 72.5 |
| HealthBench | sans outils | 58.0 | 67.2 | 44.2 | 43.8 | 46.9 |
Tâches de recherche agentiques
| Benchmark | Paramétrage | K2 Thinking | GPT-5 | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| BrowseComp | avec outils | 60.2 | 54.9 | 24.1 | 7.4 | 40.1 |
| BrowseComp-ZH | avec outils | 62.3 | 63.0* | 42.4* | 22.2 | 47.9 |
| Seal-0 | avec outils | 56.3 | 51.4* | 53.4* | 25.2 | 38.5* |
| FinSearchComp-T3 | avec outils | 47.4 | 48.5* | 44.0* | 10.4 | 27.0* |
| Frames | avec outils | 87.0 | 86.0* | 85.0* | 58.1 | 80.2* |
Tâches de codage
| Benchmark | Paramétrage | K2 Thinking | GPT-5 | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | avec outils | 71.3 | 74.9 | 77.2 | 69.2 | 67.8 |
| SWE-bench Multilingual | avec outils | 61.1 | 55.3* | 68.0 | 55.9 | 57.9 |
| Multi-SWE-bench | avec outils | 41.9 | 39.3* | 44.3 | 33.5 | 30.6 |
| SciCode | sans outils | 44.8 | 42.9 | 44.7 | 30.7 | 37.7 |
| LiveCodeBenchV6 | sans outils | 83.1 | 87.0* | 64.0* | 56.1* | 74.1 |
| OJ-Bench (cpp) | sans outils | 48.7 | 56.2* | 30.4* | 25.5* | 38.2* |
| Terminal-Bench | avec outils simulés (JSON) | 47.1 | 43.8 | 51.0 | 44.5 | 37.7 |
Note : Le gras indique la meilleure performance dans chaque catégorie. Les astérisques (*) indiquent des scores provenant directement de rapports techniques ou de blogs de modèles. K2-Thinking démontre des performances de pointe sur les tâches de raisonnement, de recherche agentique et de codage, s’imposant comme le meilleur modèle de raisonnement open source.
Fonctionnalités et capacités clés
Raisonnement multi-étapes autonome
K2-Thinking excelle sur les tâches complexes nécessitant un raisonnement soutenu sur des centaines d’étapes. Le modèle peut planifier, exécuter, vérifier et adapter son approche de manière autonome tout en maintenant la cohérence de la tâche sur l’ensemble du processus.
Orchestration d’outils étendue
Le modèle peut exécuter 200 à 300 appels d’outils séquentiels en une seule session, lui permettant de :
- Rechercher et récupérer des informations depuis plusieurs sources
- Exécuter du code et vérifier les résultats
- Naviguer sur des navigateurs web pour des tâches de recherche
- Accéder à des bases de données et des API
- Coordonner plusieurs outils pour des flux de travail complexes
Flux de raisonnement séparé
K2-Thinking expose son processus de raisonnement interne via un champ reasoning_content séparé dans la réponse de l’API, permettant aux développeurs de comprendre et d’inspecter comment le modèle arrive à ses conclusions. Cette transparence est précieuse pour le débogage, la validation et la compréhension du comportement du modèle.
Optimisation prête pour la production
Grâce à la quantification INT4 native obtenue par l’entraînement conscient de la quantification (QAT), K2-Thinking offre :
- Un gain de vitesse de génération de 2x
- Des exigences de mémoire GPU réduites
- Une précision maintenue grâce à une quantification sans perte
- Une inférence rentable à grande échelle
Accessibilité des poids ouverts
Publié sous licence MIT modifiée, K2-Thinking est entièrement accessible en tant que modèle à poids ouverts pour la recherche, le développement et les applications commerciales. Le modèle peut être téléchargé, affiné et déployé localement ou via API.
Comment accéder à Kimi-K2-Thinking sur Novita AI
Commencer à utiliser Kimi-K2-Thinking est rapide, simple et abordable sur Novita AI.
Utiliser le playground (aucun code requis)
- Accès instantané : Inscrivez-vous et commencez à expérimenter avec Kimi-K2-Thinking et d’autres modèles de pointe en quelques secondes.
- Interface interactive : Découvrez les capacités de raisonnement approfondi du modèle via une interface intuitive.
- Transparence du raisonnement : Visualisez le processus de réflexion étape par étape du modèle en temps réel.
- Comparaison de modèles : Basculez facilement entre Kimi-K2-Thinking et d’autres modèles de pointe pour trouver celui qui correspond parfaitement à vos besoins.
Essayez la démo de Kimi-K2-Thinking dès maintenant
Intégration via API (pour les développeurs)
Connectez Kimi-K2-Thinking de manière transparente à vos applications, flux de travail ou chatbots grâce à l’API REST unifiée de Novita AI : pas besoin de gérer les poids du modèle ou l’infrastructure.
Option 1 : Intégration API directe (exemple Python)
Pour commencer, utilisez simplement l’extrait de code ci-dessous :
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR_API_KEY>",
)
model = "moonshotai/kimi-k2-thinking"
stream = True # or False
max_tokens = 262144
system_content = "You are Kimi, an AI assistant created by Moonshot AI."
temperature = 1.0
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Which one is bigger, 9.11 or 9.9? Think carefully.",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
# Access the reasoning process
print("=====Reasoning Process=====")
print(chat_completion_res.choices[0].message.reasoning_content)
Fonctionnalités clés :
- Point d’accès unifié :
/v3/openaiprend en charge le format de l’API Chat Completions d’OpenAI. - Contrôles flexibles : Ajustez la température, le top-p, les pénalités et plus encore pour obtenir des résultats adaptés.
- Flux et traitement par lots : Choisissez votre mode de réponse préféré.
- Accès au raisonnement : Visualisez la réflexion interne du modèle via le champ
reasoning_content.
Option 2 : Flux de travail multi-agents avec le SDK OpenAI Agents
Construisez des systèmes d’agents multimodaux avancés en intégrant Novita AI avec le SDK OpenAI Agents :
- Prêt à l’emploi : Utilisez Kimi-K2-Thinking dans tout flux de travail OpenAI Agents.
- Prise en charge des transferts, du routage et de l’utilisation d’outils : Concevez des agents capables de raisonner en profondeur, de déléguer des tâches ou d’exécuter des fonctions.
- Intégration Python : Pointez simplement le SDK vers le point d’accès de Novita (
https://api.novita.ai/v3/openai) et utilisez votre clé API pour des flux de travail d’agents transparents.
Option 3 : Connecter l’API Kimi-K2-Thinking sur des plateformes tierces
- Hugging Face : Utilisez Kimi-K2-Thinking dans les Spaces, les pipelines ou avec la bibliothèque Transformers via les points d’accès de Novita AI.
- Frameworks d’agents et d’orchestration : Connectez facilement Novita AI à des plateformes partenaires comme Continue, AnythingLLM, LangChain, Dify et Langflow grâce à des connecteurs officiels et des guides d’intégration étape par étape.
- API compatible OpenAI : Profitez d’une migration et d’une intégration sans problème avec des outils comme Cline, Cursor, Trae et Qwen Code, conçus pour la norme d’API OpenAI.
- API compatible Anthropic : Intégrez-vous de manière transparente avec Claude Code pour des flux de travail de codage agentiques et d’autres outils compatibles avec l’API Anthropic.
Cas d’usage et applications
Résolution de problèmes avancée
K2-Thinking excelle en mathématiques de niveau doctorat, dans les tâches de raisonnement complexes et les questions multidisciplinaires qui nécessitent une connaissance approfondie du domaine et une pensée analytique soutenue sur des centaines d’étapes de raisonnement.
Agents de recherche autonomes
- Synthèse d’informations : Collecter, analyser et synthétiser des informations depuis plusieurs sources
- Vérification des faits : Recouper les affirmations entre documents et bases de données
- Revue de littérature : Analyser des articles académiques et extraire les résultats clés
- Veille concurrentielle : Rechercher les tendances du marché et les stratégies des concurrents
Tâches de codage complexes
- Conception de systèmes : Architecturer des applications complètes à partir de besoins
- Investigation de bugs : Déboguer des problèmes complexes par une analyse systématique
- Refactorisation de code : Améliorer des bases de code avec des modifications au niveau de l’architecture
- Développement frontend : Créer des applications web réactives et riches en composants
Flux de travail à long terme
- Analyse de documents : Traiter et comprendre des spécifications techniques longues
- Exploration de bases de code : Naviguer et comprendre des projets logiciels volumineux
- Automatisation multi-étapes : Coordonner des flux de travail complexes sur plusieurs outils
- Planification stratégique : Développer des stratégies complètes avec des plans d’action détaillés
Rédaction créative et technique
K2-Thinking offre des performances améliorées sur les tâches de rédaction longue, produisant un contenu cohérent et bien structuré qui maintient sa cohérence sur des sorties étendues.
Conclusion
Kimi-K2-Thinking représente un moment charnière dans le développement de l’IA open source, apportant des capacités de raisonnement de pointe à la communauté des développeurs. Sa combinaison de raisonnement multi-étapes approfondi, d’orchestration d’outils étendue et de processus de réflexion transparent en fait un choix idéal pour construire des agents et des applications IA sophistiqués qui nécessitent une pensée analytique soutenue.
Avec des performances de pointe qui égalent ou dépassent celles de modèles propriétaires comme GPT-5 et Claude Sonnet 4.5, une quantification INT4 native pour une inférence efficace et une fenêtre de contexte de 256 000 tokens, K2-Thinking offre une valeur inégalée pour les développeurs qui repoussent les limites de l’IA agentique.
Essayez la démo de Kimi-K2-Thinking sur Novita AI dès aujourd’hui et découvrez l’avenir de l’intelligence de raisonnement open source !
Foire aux questions
Qu’est-ce que Kimi-K2-Thinking ?
Kimi-K2-Thinking est le modèle de raisonnement open source le plus avancé de Moonshot AI, conçu comme un « agent de réflexion » qui combine un raisonnement multi-étapes approfondi avec une orchestration d’outils. Il peut exécuter 200 à 300 appels d’outils séquentiels tout en maintenant un raisonnement cohérent sur des centaines d’étapes.
Comment Kimi-K2-Thinking se compare-t-il aux autres modèles de raisonnement ?
Kimi-K2-Thinking atteint des performances de pointe parmi les modèles open source, dépassant souvent des modèles propriétaires comme GPT-5 et Claude Sonnet 4.5 sur les benchmarks de raisonnement et agentiques. Il a obtenu 44,9 % à l’examen Humanity’s Last Exam, 60,2 % à BrowseComp et 71,3 % à SWE-Bench Verified.
Qu’est-ce qui distingue Kimi-K2-Thinking de Kimi-K2-Instruct ?
Kimi-K2-Thinking est disponible sur Novita AI à 0,60 $ par million de tokens d’entrée et 2,50 $ par million de tokens de sortie, offrant une valeur exceptionnelle par rapport aux modèles de raisonnement propriétaires.
Kimi-K2-Thinking est-il adapté à une utilisation en production ?
Oui. Kimi-K2-Thinking intègre une quantification INT4 native grâce à l’entraînement conscient de la quantification (QAT), offrant des gains de vitesse de génération de 2x avec une précision sans perte. Cela le rend très efficace pour les déploiements en production à grande échelle.
Novita AI est une plateforme cloud IA de premier plan qui fournit aux développeurs des API faciles à utiliser et une infrastructure GPU abordable et fiable pour construire et mettre à l’échelle des applications IA.
