Citron Conseil est une société de conseil en marketing et communication, basée à Paris et spécialisée dans l'innovation stratégique en affaires et le soutien aux startups, de leur création à leur expansion.

Plus rapide que GPT-4 Turbo, GPT-4o bénéficie également de meilleures capacités vocales et visuelles.

 / Publié le 

 

GPT-4o presentation
La prise en charge prochaine de l’option de reconnaissance vidéo par GPT-4o constituera une innovation d’ampleur pour OpenAI. © OpenAI

Dans le cadre d’une conférence de presse tenue ce lundi 13 mai 2024, OpenAI a présenté son nouveau modèle de langage, GPT-4o, plus puissant que GPT-4 et dès à présent disponible pour tous les utilisateurs. Dans le même temps, la société a lancé une nouvelle application ChatGPT pour macOS. On fait le point !

GPT-4o : le nouveau modèle phare d’OpenAI

Le « o » de GPT-4o signifie « omnimodel », indiquant que le modèle peut traiter nativement plusieurs types de formats. Selon OpenAI, les capacités du modèle sont similaires à celles de GPT-4, mais avec une rapidité accrue et de meilleures performances dans certains domaines, comme la voix et l’image. Par ailleurs, GPT-4o pourra prochainement prendre en charge le format vidéo, y compris la vidéo en temps réel.

À l’avenir, des améliorations permettront une conversation vocale plus naturelle et en temps réel, ainsi que la possibilité de converser avec ChatGPT par le biais d’une vidéo en temps réel. Par exemple, vous pourriez montrer à ChatGPT un match de sport en direct et lui demander de vous en expliquer les règles.

Sur sa page de présentation du modèle, OpenAI présente quelques exemples de ses capacités, notamment dans la création et l’itération de visuels, avec des performances souvent impressionnantes. Toutefois, en reproduisant ces exemples, nous n’avons pas obtenu des résultats aussi concluants.

Des capacités avancées en reconnaissance vocale et analyse d’image

Dans son comparatif technique, OpenAI précise que GPT-4o atteint des niveaux comparables à GPT-4 Turbo en texte, raisonnement et codage, mais qu’il « établit de nouvelles références en matière de capacités multilingues, audio et visuelles ». Concernant les capacités orales, notamment la reconnaissance et le discours, les résultats partagés montrent que le taux d’erreur de GPT-4o est significativement moins élevé que celui de Whisper, le modèle de reconnaissance vocale précédemment utilisé par OpenAI dans ses produits.

Le taux d’erreur est plus bas pour GPT-4o dans la totalité des familles de langues analysées. © OpenAI

OpenAI explique que le nouveau modèle, omnimodèle, est unique et formé de bout en bout pour le texte, la vision et l’audio, « ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal ». À l’inverse, le mode vocal avec GPT-3.5 et GPT-4 implique l’articulation de trois modèles différents, ce qui entraîne un temps de latence et une perte d’informations.

Ce processus signifie que la principale source d’intelligence, GPT-4, perd beaucoup d’informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas émettre de rires, de chants ou exprimer des émotions, souligne OpenAI.

GPT-4o accessible à tous les utilisateurs

GPT-4o est actuellement disponible pour les utilisateurs des formules payantes ChatGPT Plus et Team. Les abonnés du plan Enterprise devront attendre quelques semaines pour en bénéficier. En outre, le nouveau modèle est intégré dans la version gratuite du chatbot, mais avec une limite de messages jusqu’à cinq fois inférieure à celle des utilisateurs de ChatGPT Plus.

Le nombre de messages que les utilisateurs gratuits peuvent envoyer avec GPT-4o sera limité en fonction de l’utilisation et de la demande. Lorsque la limite sera atteinte, ChatGPT passera automatiquement à GPT-3.5 afin que les utilisateurs puissent poursuivre leurs conversations, précise OpenAI.

Dès à présent, les utilisateurs de la version gratuite de ChatGPT peuvent donc tester des fonctionnalités jusqu’ici réservées aux formules payantes, telles que l’accès au web, l’analyse de données, l’analyse d’images, ou encore les chatbots personnalisés. Pour le découvrir, il suffit d’appuyer sur GPT-3.5 ou GPT-4 dans le coin supérieur gauche de l’interface, et de sélectionner GPT-4o.

Leave a Reply

Your email address will not be published. Required fields are marked *