Un lancement d'OpenAI – GPT-4o : cas d'usage, fonctionnement et comment y accéder

Un lancement d'OpenAI – GPT-4o : cas d'usage, fonctionnement et comment y accéder

OpenAI a dévoilé son plus récent grand modèle de langage, GPT-4o, ce lundi, marquant une évolution par rapport à son prédécesseur GPT-4 Turbo. Découvrez ses fonctionnalités, son efficacité et ses applications potentielles dans les sections suivantes.

Qu’est-ce que GPT-4o d’OpenAI ?

GPT-4o représente le dernier grand modèle de langage d’OpenAI. Le « o » de son nom signifie « omni », du latin « omnis », indiquant sa capacité à traiter des prompts contenant un mélange de texte, d’audio, d’images et de vidéos. Auparavant, différents modèles étaient utilisés pour divers types de contenu dans l’interface ChatGPT.

Par exemple, lors d’interactions en mode vocal avec ChatGPT, la parole était transcrite en texte via Whisper, une réponse textuelle était formulée avec GPT-4 Turbo, puis le texte de la réponse était reconverti en parole via TTS.

De même, intégrer des images dans les interactions ChatGPT nécessitait une combinaison de GPT-4 Turbo et de DALL-E 3. Regrouper ces fonctions en un seul modèle pour divers formats de contenu offre un potentiel de traitement plus rapide, une meilleure qualité des résultats, une interface simplifiée et l’exploration de nouveaux cas d’usage.

Qu’est-ce qui différencie GPT-4o de GPT-4 Turbo ?

En adoptant une stratégie de modèle tout-en-un, GPT-4o surpasse diverses contraintes associées aux fonctionnalités précédentes d’interaction vocale.

1. Le ton de la voix est désormais pris en compte, facilitant les réponses émotionnelles

Dans l’ancien système d’OpenAI, qui combinait Whisper, GPT-4 Turbo et TTS de manière séquentielle, le moteur de raisonnement GPT-4 n’avait accès qu’aux mots parlés transcrits. Cette approche entraînait l’omission d’éléments cruciaux comme le ton de la voix, les bruits de fond et les distinctions entre plusieurs interlocuteurs. Par conséquent, GPT-4 Turbo était limité dans sa capacité à générer des réponses avec des émotions ou des styles de parole variés.

Cependant, avec un modèle unifié capable de traiter à la fois le texte et l’audio, ces précieuses informations audio peuvent désormais être utilisées pour fournir des réponses de meilleure qualité, offrant une plus large gamme de styles de parole.

Dans la vidéo ci-dessous fournie par OpenAI, GPT-4o démontre sa capacité à générer une réponse sarcastique.

2. Une latence réduite permet des conversations en temps réel

L’ancien pipeline à trois modèles entraînait un léger délai, ou « latence », entre l’interaction avec ChatGPT et la réception d’une réponse.

OpenAI a révélé que la latence moyenne pour le mode vocal est de 2,8 secondes avec GPT-3.5 et de 5,4 secondes avec GPT-4. En revanche, la latence moyenne de GPT-4o est de 0,32 seconde, ce qui le rend neuf fois plus rapide que GPT-3.5 et 17 fois plus rapide que GPT-4.

Cette latence réduite se rapproche du temps de réponse humain moyen de 0,21 seconde et est particulièrement cruciale pour les scénarios conversationnels, où les échanges fréquents entre humains et IA accumulent les délais entre les réponses.

Cette fonctionnalité rappelle le lancement par Google de Instant, sa fonction d’auto-complétion des requêtes de recherche, en 2010. Bien que la recherche ne prenne généralement pas beaucoup de temps, gagner quelques secondes à chaque utilisation améliore l’expérience globale du produit.

Un cas d’usage prometteur rendu plus réalisable par la latence réduite de GPT-4o est la traduction vocale en temps réel. OpenAI a illustré un scénario où deux collègues, l’un anglophone et l’autre hispanophone, communiquent avec GPT-4o facilitant la traduction instantanée de leur conversation.

https://youtu.be/WzUnEfiIqP4?si=dnnqaNxT4ncX7cfJ

3. Vision intégrée permettant de décrire un flux vidéo

Parallèlement à l’intégration de la voix et du texte, GPT-4o intègre également des fonctionnalités pour les images et les vidéos. Cela signifie que lorsqu’on lui donne accès à un écran d’ordinateur, il peut décrire le contenu affiché, répondre à des questions sur les images affichées, ou même servir de compagnon utile dans vos tâches.

Dans une vidéo publiée par OpenAI mettant en vedette Sal Khan de la Khan Academy, GPT-4o aide Sal avec les devoirs de mathématiques de son fils.

https://youtu.be/_nSmkyDNulk?si=sFvBOgk9hznhqf4f

Au-delà de l’interaction avec un écran, si vous donnez à GPT-4o accès à une caméra, par exemple celle de votre smartphone, il peut décrire son environnement visuel.

Dans une démonstration complète d’OpenAI, toutes ces capacités sont combinées. Deux smartphones équipés de GPT-4o engagent une conversation. L’un des GPT a accès aux caméras du smartphone et décrit ses observations visuelles à un autre GPT dépourvu de capacités visuelles.

Le résultat est une conversation à trois entre un humain et deux IA. La vidéo inclut également un segment où les IA chantent, une capacité impossible avec les modèles précédents.

https://youtu.be/MirzFk_DSiI?si=Dv7HoVcNliXD3lJg

4. Une meilleure tokenisation pour les alphabets non romains offre plus de rapidité et de rapport qualité-prix

Une étape cruciale dans le flux de travail des grands modèles de langage (LLMs) consiste à convertir le texte du prompt en tokens, qui sont des unités de texte que le modèle peut comprendre.

En anglais, un token correspond généralement à un seul mot ou signe de ponctuation, bien que certains mots puissent être divisés en plusieurs tokens. En moyenne, environ trois mots anglais sont représentés par environ quatre tokens.

Réduire le nombre de tokens nécessaires pour représenter le langage dans le modèle entraîne moins de calculs et une génération de texte plus rapide.

De plus, comme OpenAI facture ses utilisateurs API en fonction du nombre de tokens saisis ou générés, moins de tokens se traduisent par des coûts plus faibles pour les utilisateurs API.

GPT-4o dispose d’un modèle de tokenisation amélioré qui nécessite moins de tokens par texte. Cette amélioration est particulièrement notable pour les langues qui n’utilisent pas l’alphabet romain.

Par exemple, les langues indiennes, notamment le hindi, le marathi, le tamoul, le télougou et le gujarati, ont connu des réductions de tokens allant de 2,9 à 4,4 fois. L’arabe a connu une réduction de 2 fois, tandis que les langues d’Asie de l’Est comme le chinois, le japonais, le coréen et le vietnamien ont connu des réductions allant de 1,4 à 1,7 fois.

5. Déploiement sur le plan gratuit

La structure tarifaire actuelle d’OpenAI pour ChatGPT oblige les utilisateurs à payer pour accéder au modèle haut de gamme : GPT-4 Turbo était exclusivement disponible sur les plans payants Plus et Enterprise.

Cependant, cela est en train de changer, car OpenAI s’est engagé à proposer GPT-4o également sur le plan gratuit. Les utilisateurs Plus bénéficieront d’un quota de messages cinq fois supérieur à celui des utilisateurs du plan gratuit.

Le déploiement se fera progressivement, en commençant par les membres de l’équipe rouge (testeurs chargés d’identifier les vulnérabilités du modèle) qui y auront accès immédiatement, suivi d’un accès plus large pour les utilisateurs, déployé progressivement.

6. Lancement de l’application de bureau ChatGPT

Bien que non spécifiquement lié à GPT-4o, OpenAI a également lancé l’application de bureau ChatGPT. Compte tenu des améliorations de latence et de multimodalité évoquées précédemment, ainsi que du lancement de l’application, il est évident que la dynamique d’interaction avec ChatGPT est sur le point de se transformer. Par exemple, OpenAI a présenté une démonstration d’un flux de travail de codage augmenté utilisant la voix et l’application de bureau ChatGPT. Faites défiler vers le bas dans la section des cas d’usage pour voir cet exemple en action !

Comment fonctionne GPT-4o ?

De nombreux types de contenu, un seul réseau neuronal

Les détails concernant le fonctionnement de GPT-4o restent limités. La seule information fournie par OpenAI dans son annonce est que GPT-4o est un réseau neuronal unifié entraîné sur des entrées de texte, de vision et d’audio.

Cette nouvelle approche marque un départ par rapport à la méthode précédente qui utilisait des modèles distincts entraînés sur différents types de données.

Cependant, GPT-4o n’est pas le premier modèle à adopter une approche multimodale. En 2022, TenCent Lab a introduit SkillNet, un modèle fusionnant les caractéristiques des transformeurs de LLM avec des techniques de vision par ordinateur pour améliorer la reconnaissance des caractères chinois.

De même, en 2023, un effort collaboratif de l’ETH Zurich, du MIT et de l’Université de Stanford a donné naissance à WhisBERT, une variante de la série BERT des grands modèles de langage. Bien qu’il ne soit pas pionnier, GPT-4o se distingue par son ambition et sa puissance remarquables par rapport à ces premiers travaux.

GPT-4o est-il un changement radical par rapport à GPT-4 Turbo ?

L’ampleur des modifications apportées à l’architecture de GPT-4o par rapport à GPT-4 Turbo semble sujette à interprétation, selon que l’on consulte les équipes d’ingénierie ou de marketing d’OpenAI. En avril, un bot nommé « im-also-a-good-gpt2-chatbot » est apparu sur Chatbot Arena de LMSYS, un classement des meilleurs IA génératives. Cette IA énigmatique s’est révélée être GPT-4o.

L’inclusion de « gpt2 » dans le nom est significative. Elle distingue GPT-4o de GPT-2, un prédécesseur de GPT-3.5 et GPT-4. Le suffixe « 2 » a été largement interprété comme signifiant une architecture entièrement nouvelle dans la série des modèles GPT.

Apparemment, les personnes au sein des équipes de recherche ou d’ingénierie d’OpenAI perçoivent la fusion des types de contenu texte, vision et audio en un seul modèle comme un changement suffisamment important pour justifier la première augmentation du numéro de version en six ans.

À l’inverse, l’équipe marketing a choisi d’adopter une approche relativement sobre en matière de dénomination, en continuant la convention « GPT-4 ».

Performances de GPT-4o par rapport à d’autres modèles

OpenAI a publié des chiffres de référence comparant GPT-4o à plusieurs autres modèles haut de gamme :

  1. GPT-4 Turbo
  2. GPT-4 (version initiale)
  3. Claude 3 Opus
  4. Gemini Pro 1.5
  5. Gemini Ultra 1.0
  6. Llama 3 400B

Parmi ceux-ci, seuls trois modèles présentent une réelle pertinence pour la comparaison : GPT-4 Turbo, Claude 3 Opus et Gemini Pro 1.5. Ces modèles se disputent la première place du classement Chatbot Arena de LMSYS ces derniers mois.

Bien que Llama 3 400B puisse devenir un concurrent à l’avenir, il est encore en développement. Par conséquent, les résultats des benchmarks présentés ici se concentrent uniquement sur ces trois modèles et GPT-4o.

Six benchmarks ont été utilisés pour l’évaluation :

  1. Massive Multitask Language Understanding (MMLU) : couvre des tâches allant des mathématiques élémentaires à l’histoire américaine, l’informatique, le droit, etc. Les modèles doivent posséder une vaste connaissance du monde et des capacités de résolution de problèmes pour obtenir une précision élevée à ce test.
  2. Graduate-Level Google-Proof Q&A (GPQA) : propose des questions à choix multiples rédigées par des experts en biologie, physique et chimie. Les questions sont de haute qualité et extrêmement difficiles, les experts titulaires ou poursuivant un doctorat dans les domaines correspondants atteignant une précision de 74 %.
  3. MATH : comprend des problèmes de mathématiques de collège et de lycée.
  4. HumanEval : évalue la correction fonctionnelle du code informatique, utilisé pour évaluer la génération de code.
  5. Multilingual Grade School Math (MSGM) : comprend des problèmes de mathématiques de niveau primaire traduits en dix langues, y compris des langues sous-représentées comme le bengali et le swahili.
  6. Discrete Reasoning Over Paragraphs (DROP) : se concentre sur des questions qui exigent la compréhension de paragraphes entiers, impliquant des tâches comme l’addition, le comptage ou le tri de valeurs réparties sur plusieurs phrases.

Performance de GPT-4o, GPT-4 Turbo, Gemini Pro 1.5 et Claude 3 Opus sur six benchmarks LLM. Les scores pour chaque benchmark vont de 0 à 100. Recréé à partir des données fournies par OpenAI. Aucune donnée n’a été fournie pour Gemini Pro 1.5 pour le benchmark GPQA.

GPT-4o surpasse les autres modèles dans quatre benchmarks, bien qu’il soit surpassé par Claude 3 Opus dans le benchmark MSGM et par GPT-4 Turbo dans le benchmark DROP. Malgré ces résultats spécifiques, la performance globale de GPT-4o est impressionnante, indiquant le potentiel de la nouvelle approche d’entraînement multimodal.

En examinant de plus près les chiffres de GPT-4o par rapport à GPT-4 Turbo, les augmentations de performance sont relativement modestes, avec seulement quelques points de pourcentage de différence. Bien que cela représente un progrès notable en un an, cela reste loin des bonds de performance spectaculaires observés entre GPT-1 et GPT-2 ou GPT-2 et GPT-3.

Il devient évident qu’obtenir une amélioration de 10 % du raisonnement textuel par an pourrait devenir la nouvelle norme. Les défis les plus faciles ont été relevés, rendant les avancées significatives en raisonnement textuel de plus en plus difficiles.

Cependant, ces benchmarks LLM ne capturent pas pleinement la performance de l’IA sur des problèmes multimodaux. Le concept d’entraînement multimodal est encore relativement nouveau, et il manque des méthodes efficaces pour mesurer la compétence d’un modèle en texte, audio et vision.

Dans l’ensemble, la performance de GPT-4o est impressionnante et démontre le potentiel de l’approche innovante de l’entraînement multimodal.

Cas d’usage de GPT-4o

1. GPT-4o pour l’analyse de données et les tâches de codage

Les modèles GPT récents et leurs dérivés, tels que GitHub Copilot, sont déjà capables de fournir une aide au code, notamment l’écriture de code, l’explication des erreurs et la correction des erreurs. Les capacités multimodales de GPT-4o ouvrent des possibilités intrigantes.

Dans une vidéo promotionnelle mettant en vedette la CTO d’OpenAI Mira Murati, deux chercheurs d’OpenAI, Mark Chen et Barret Zoph, ont démontré l’utilisation de GPT-4o pour interagir avec du code Python.

Le code est présenté à GPT sous forme de texte, et la fonctionnalité d’interaction vocale est utilisée pour demander à GPT des explications sur le code. Ensuite, après l’exécution du code, la capacité de vision de GPT-4o est exploitée pour fournir des explications sur le graphique.

Dans l’ensemble, le processus consistant à montrer votre écran à ChatGPT et à poser une question verbalement présente un flux de travail potentiellement plus simple que de sauvegarder un graphique sous forme de fichier image, de le télécharger sur ChatGPT, puis de taper une question.

2. GPT-4o pour la traduction en temps réel

Préparez-vous à emmener GPT-4o en vacances. Grâce à ses capacités vocales à faible latence, GPT-4o permet la traduction en temps réel, rendant cela possible (en supposant que vous ayez des données en itinérance sur votre forfait mobile !). Cela rend les voyages dans les pays où vous ne parlez pas la langue beaucoup plus gérables.

3. Jeu de rôle avec GPT-4o

ChatGPT s’est avéré être une ressource précieuse pour les scénarios de jeu de rôle, que vous simuliez un entretien d’embauche pour votre carrière de rêve dans les données ou que vous formiez votre équipe commerciale à améliorer les ventes de produits.

Auparavant, il supportait principalement les jeux de rôle textuels, ce qui pouvait ne pas être optimal pour certains cas d’usage. Cependant, avec des capacités vocales améliorées, le jeu de rôle vocal est désormais une option réalisable.

Cependant, si vous préférez le jeu de rôle textuel traditionnel, vous pouvez choisir novita.ai API LLM :

4. GPT-4o pour aider les utilisateurs malvoyants

La capacité de GPT-4o à interpréter une entrée vidéo provenant d’une caméra et à décrire verbalement la scène présente un potentiel important en tant que fonctionnalité cruciale pour les personnes malvoyantes. Essentiellement, cela reflète la fonction de description audio que l’on trouve dans les téléviseurs, mais étendue à des situations réelles.

Obtenir l’accès à GPT-4o dans ChatGPT

L’adresse de ChatGPT est passée de chat.openai.com à chatgpt.com, indiquant un engagement substantiel envers l’IA en tant que produit plutôt que comme une simple expérience. Si vous avez accès à GPT-4o sur votre compte, il sera accessible à la fois dans l’application mobile et en ligne.

De plus, une application Mac a commencé à être distribuée à certains utilisateurs. Cependant, la prudence est de mise concernant les liens, car des escrocs exploitent cette version pour distribuer des logiciels malveillants sur les ordinateurs. L’approche la plus sûre est d’attendre un e-mail ou une notification contenant un lien directement d’OpenAI.

Même si vous possédez un lien fonctionnel pour l’application, l’accès ne sera accordé qu’une fois que celui-ci aura été autorisé pour votre compte OpenAI. Vous rencontrerez un message d’erreur indiquant « Vous n’avez pas accès » si vous essayez de l’utiliser prématurément.

Connectez-vous à ChatGPT

Que vous choisissiez la version payante ou gratuite de ChatGPT, la première étape est de vous connecter. Visitez le site Web ou téléchargez l’application et associez-la à votre compte. Si vous n’avez pas encore de compte, inscrivez-vous simplement.

Vérifiez vos choix de modèle

Près du haut de l’écran, vous trouverez un menu déroulant contenant une liste de modèles. Sur le site Web, il peut déjà afficher « GPT-4o » comme sélectionné, mais il pourrait aussi afficher des options comme « GPT-4 » ou « GPT-3.5 ». Si « GPT-4o » n’apparaît pas, cela signifie que vous n’avez pas encore accès au modèle.

Sur les appareils mobiles, si vous avez accès, vous verrez « ChatGPT 4o » affiché au milieu de la barre de navigation en haut de l’écran.

Commencez à discuter

Si vous avez accès, commencez à discuter avec GPT-4o comme vous le feriez avec GPT-4. Cependant, soyez conscient que des limites de débit sont appliquées, et celles-ci sont nettement inférieures sur le plan gratuit. Par conséquent, vous ne pourrez envoyer qu’un nombre prédéfini de messages par jour. Si vous atteignez cette limite, vous pouvez continuer la conversation avec GPT-4 ou GPT-3.5.

Changez de modèle dans une conversation

Vous avez également la possibilité de changer le modèle d’IA que vous utilisez au cours d’une session de chat. Par exemple, si vous souhaitez réguler le nombre de messages que vous envoyez avec GPT-4o, vous pourriez commencer le chat avec GPT-3.5. Ensuite, sélectionnez l’icône d’étincelle située à la fin de la réponse.

Cette action ouvre un menu de modèles, et en sélectionnant GPT-4o, qui pourrait être nécessaire pour traiter une requête mathématique plus complexe, la réponse suivante sera générée avec GPT-4o.

Téléchargez des fichiers

Si vous avez accès à GPT-4o et êtes sur le plan gratuit, vous pouvez désormais télécharger des fichiers pour analyse. Ces fichiers peuvent inclure des images, des vidéos ou même des PDF. Ensuite, vous pouvez poser toutes les questions sur le contenu à GPT-4o.

Limites et risques de GPT-4o

La réglementation de l’IA générative en est encore à ses balbutiements, l’Acte sur l’IA de l’UE représentant le principal cadre juridique actuellement en place. Par conséquent, les entreprises développant l’IA doivent faire leurs propres déterminations sur ce qui constitue une IA sûre.

OpenAI utilise un cadre de préparation pour évaluer si un nouveau modèle est apte à être publié. Ce cadre évalue quatre domaines clés de préoccupation :

  1. Cybersécurité : évaluer si l’IA pourrait améliorer la productivité des cybercriminels ou faciliter la création d’exploits.
  2. BCRN : examiner si l’IA pourrait aider des experts à concevoir des menaces biologiques, chimiques, radiologiques ou nucléaires.
  3. Persuasion : évaluer le potentiel de l’IA à générer un contenu persuasif (potentiellement interactif) qui influence les individus à modifier leurs croyances.
  4. Autonomie du modèle : étudier si l’IA peut fonctionner comme un agent autonome, exécutant des actions en conjonction avec d’autres logiciels.

Chaque domaine de préoccupation est catégorisé comme Faible, Moyen, Élevé ou Critique, et le score global du modèle correspond à la note la plus élevée parmi les quatre catégories.

OpenAI s’engage à ne pas publier un modèle qui présente une préoccupation critique. Cependant, ce seuil de sécurité est relativement bas, car une préoccupation critique est définie comme quelque chose capable de perturber considérablement la civilisation humaine. GPT-4o évite cela confortablement, obtenant une note de préoccupation Moyenne.

Résultats imparfaits

Comme c’est courant avec toutes les IA génératives, le modèle peut ne pas toujours se comporter comme prévu. La technologie de vision par ordinateur n’est pas parfaite, ce qui signifie que les interprétations d’images ou de vidéos ne sont pas garanties d’être exactes.

De même, les transcriptions vocales sont rarement précises à 100 %, surtout lorsque le locuteur a un accent prononcé ou utilise une terminologie technique.

OpenAI a publié une vidéo montrant quelques prises ratées où GPT-4o n’a pas fonctionné comme prévu. Les échecs notables comprenaient une traduction infructueuse entre deux langues non anglaises, un ton de voix inapproprié (comme paraître condescendant) et le fait de parler dans la mauvaise langue.

Risque accru de deepfakes audio

L’annonce d’OpenAI reconnaît que « les modalités audio de GPT-4o introduisent divers nouveaux risques ». À bien des égards, GPT-4o a le potentiel d’accélérer la prolifération des appels frauduleux par deepfake, où l’IA imite des célébrités, des politiciens et des connaissances. C’est un défi qui va probablement s’aggraver avant d’être efficacement traité, et GPT-4o possède la capacité d’améliorer considérablement la crédibilité des appels frauduleux par deepfake.

Pour atténuer ce risque, la sortie audio est limitée à une sélection de voix prédéfinies.

Il est concevable que des fraudeurs techniquement compétents puissent utiliser GPT-4o pour générer du texte, puis utiliser leur propre modèle de synthèse vocale. Cependant, on ne sait pas si cette approche conserverait encore les avantages en termes de latence et de ton de voix que GPT-4o offre.

Combien coûte GPT-4o ?

Malgré sa vitesse supérieure à GPT-4 Turbo et ses capacités de vision améliorées, GPT-4o sera environ 50 % moins cher que son prédécesseur. Comme indiqué sur le site Web d’OpenAI, l’utilisation du modèle coûtera 5 $ par million de tokens pour l’entrée et 15 $ par million de tokens pour la sortie.

Conclusion

GPT-4o représente une avancée significative dans l’IA générative, intégrant le traitement du texte, de l’audio et du visuel en un seul modèle efficace. Cette innovation promet des réponses plus rapides, des interactions plus immersives et un spectre plus large d’applications, allant de la traduction en temps réel à une analyse de données améliorée et une meilleure accessibilité pour les personnes malvoyantes.

novita.ai, la plateforme tout-en-un pour une créativité illimitée qui vous donne accès à plus de 100 API. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, une tarification à l’usage économique, elle vous libère des contraintes de maintenance GPU tout en construisant vos propres produits. Essayez-la gratuitement.

Lectures recommandées

Quelle est la différence entre LLM et GPT ?

Prédictions du classement LLM 2024 révélées

Moteur d’inférence LLM Novita AI : le plus grand débit et l’inférence la moins chère disponibles