Logo

Explorer l'IA et les LLM : Introduction, Utilisation et Potentiel

Définitions clés

  • Agent : Un agent désigne une entité logicielle autonome qui utilise un ou plusieurs LLM pour interagir de manière intelligente avec son environnement ou résoudre des problèmes. Par exemple, un agent peut enchaîner des appels à un LLM, garder un état conversationnel, utiliser des outils externes (comme effectuer des recherches, appeler des API) et prendre des décisions pour atteindre un objectif fixé.
  • Application : Une application est l'utilisation concrète d'un modèle pour réaliser une tâche précise (chatbot, résumé automatique, traduction, etc.). C'est souvent une interface ou un programme qui intègre un ou plusieurs modèles d'IA pour fournir un service aux utilisateurs.
  • Fine-tuning : Le fine-tuning (affinage du modèle) est l'entraînement complémentaire d'un modèle pré-entraîné sur un jeu de données plus restreint et spécialisé. Il permet d'adapter le LLM à un cas d'utilisation particulier ou à un domaine spécifique. Par exemple, on peut affiner un modèle généraliste sur des données médicales pour le spécialiser dans le domaine de la santé. Le fine-tuning ajuste légèrement les paramètres du modèle pour améliorer ses performances dans la tâche visée.
  • Modèle : Un modèle (notamment un modèle de langage ou LLM pour Large Language Model) est un programme d'IA entraîné sur de vastes quantités de données textuelles. Il peut générer du texte ou des réponses cohérentes en fonction d'une entrée. Les LLM sont des modèles de très grande taille (des milliards de paramètres) capables de comprendre et produire du langage naturel.
  • Outils : Dans le contexte des LLM, un outil est une ressource externe que le modèle peut utiliser via un agent ou une plateforme dédiée. Il peut s'agir d'une base de connaissances, d'un moteur de recherche, d'une calculatrice, d'une API tierce, etc. L'usage d'outils permet à un LLM d'étendre ses capacités au-delà de ses connaissances internes (par exemple, accéder à des informations à jour ou effectuer des calculs complexes).
  • Prompt : Un prompt est le texte ou l'instruction fournie en entrée au modèle pour qu'il génère une réponse. C'est la consigne que l'on donne à l'IA. Un prompt bien rédigé oriente le modèle vers la tâche attendue.
  • Propriétaire vs Open source : Un modèle propriétaire est développé et détenu par une entreprise; son code et ses données d'entraînement ne sont pas publiés. L'accès se fait généralement via une API payante (ex : GPT-4 d'OpenAI). Un modèle open source est publié librement, souvent avec son architecture et ses paramètres disponibles; il peut être utilisé et modifié par la communauté (ex : Mistral 7B, LLaMA 2 de Meta).
  • RAG (Retrieval-Augmented Generation) : La génération augmentée par récupération consiste à intégrer une étape de recherche d'information (récupération de documents, FAQ, base de données…) dans le processus de génération. Concrètement, avant de répondre à une question, le système va chercher des données pertinentes (par exemple, les paragraphes d'un article) et les inclure dans le prompt. Cela permet au LLM de s'appuyer sur des faits à jour ou spécifiques et de réduire les « hallucinations » (inventions de réponses incorrectes).
  • Température : La température est un paramètre de génération qui contrôle le niveau de créativité ou d'aléatoire des réponses du modèle. Une température élevée (par exemple 0.8 ou 1) donne des réponses plus variées et originales mais potentiellement moins cohérentes, tandis qu'une température faible (proche de 0) donne des réponses plus déterministes et répétables.
  • Token : Un token est une unité de texte manipulée par le modèle. Il s'agit généralement d'un morceau de mot, d'un mot complet ou d'un symbole. Les modèles traitent le texte en le découpant en tokens. Par exemple, la phrase « Bonjour » peut être découpée en tokens comme « Bon », « jour ». La longueur des entrées et sorties d'un LLM est souvent mesurée en nombre de tokens.
  • Workflow : Un workflow est un enchaînement structuré d'étapes pour accomplir une tâche avec des IA. Par exemple, un workflow de question/réponse peut inclure : 1) extraire la question de l'utilisateur, 2) si besoin utiliser RAG pour trouver de l'information pertinente, 3) formuler un prompt avec contexte, 4) interroger le LLM, 5) restituer la réponse formatée. Le workflow décrit comment les agents, les modèles et les outils collaborent pour fournir le résultat final.

Classement des principaux LLM du marché

Plusieurs grandes organisations développent des LLM de pointe. On peut les classer selon qu'ils sont ouverts ou propriétaires, ainsi que par leurs usages principaux. Le tableau suivant dresse un panorama des principaux LLM actuels et de leurs caractéristiques :

Organisation Modèle / LLM Type Utilisation et caractéristiques
OpenAI GPT-5, GPT-5 mini, GPT-5 nano, o3, o4-mini 🔒 Propriétaire
(API)
GPT-5 est le dernier modèle phare d'OpenAI lancé en août 2025, remplaçant GPT-4o en tant que modèle par défaut dans ChatGPT. Il combine les capacités traditionnelles et de raisonnement, offrant 50-80% moins de tokens de sortie avec de meilleures performances en raisonnement visuel, codage agentique et résolution de problèmes scientifiques. GPT-5 mini et nano sont optimisés pour l'efficacité. Les modèles o3 et o4-mini restent disponibles pour le raisonnement avancé spécialisé.
Google Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite, Gemma 3 (27B) 🔀 Hybride
(Gemma open source)
Gemini 2.5 Pro est le modèle de raisonnement phare de Google, capable de "thinking" avant de répondre, avec des performances excellentes en codage et raisonnement. Gemini 2.5 Flash offre le meilleur rapport performance/coût avec des capacités de raisonnement, tandis que Flash-Lite est optimisé pour la vitesse et les coûts réduits (septembre 2025). Gemma 3 (27B) est le modèle open source multilingue de Google disponible sous Apache 2.0.
Microsoft GPT-5 via Azure OpenAI 🔒 Propriétaire
(partenariat)
Microsoft intègre GPT-5 d'OpenAI dans ses produits (Bing Chat, Copilot d'Office, Microsoft 365 Copilot) depuis août 2025 et propose l'accès via Azure OpenAI Service et Azure AI Foundry, offrant une infrastructure cloud enterprise pour les modèles OpenAI les plus récents.
Anthropic Claude 4 Opus, Claude 4.1 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet 🔒 Propriétaire
(API)
Claude 4 Opus et Sonnet (mai 2025) sont des modèles hybrides offrant réponses instantanées et raisonnement étendu. Claude 4.1 Opus (août 2025) améliore les performances agentiques avec 74.5% sur SWE-bench. Ces modèles excellent en codage, workflows d'agents et tâches complexes. Claude 3.7 Sonnet (février 2025) fut le premier modèle hybride thinking d'Anthropic. Disponibles sur l'API, Amazon Bedrock et Google Cloud Vertex AI.
Meta LLaMA 4 Scout (109B), LLaMA 4 Maverick (400B), LLaMA 4 Behemoth (2T) 🔓 Open Source
(Licence communautaire)
LLaMA 4 (avril 2025) est la première famille LLaMA avec architecture MoE (Mixture of Experts). Scout (17B actifs/109B totaux, 10M tokens de contexte) tient sur un H100. Maverick (17B actifs/400B totaux, 1M tokens) offre des performances comparables à DeepSeek v3. Behemoth (288B actifs/2T totaux) surpasse GPT-4.5 et Claude Sonnet 3.7. Modèles multimodaux natifs (texte, image, vidéo) pré-entraînés sur 200 langues. Licence gratuite jusqu'à 700M d'utilisateurs mensuels.
DeepSeek DeepSeek-R1, DeepSeek-V3 🔓 Open Source
(MIT)
DeepSeek-R1 est un modèle de raisonnement open source basé sur une architecture MoE (Mixture of Experts) avec 671 milliards de paramètres, dont 37B activés par token. Il excelle en mathématiques, codage et raisonnement, rivalisant avec des modèles propriétaires comme OpenAI o1, tout en étant plus économique. DeepSeek-V3, son successeur, améliore encore les performances avec des techniques avancées telles que l'attention latente multi-tête et un objectif d'entraînement de prédiction multi-token. Ces modèles sont disponibles sous licence MIT, favorisant la recherche et l'innovation.
Alibaba Cloud Qwen3-Max, Qwen3-Next, QwQ-32B 🔓 Open Source
(Apache 2.0)
Qwen3-Max (janvier 2025, >1T paramètres, 3ème mondial sur LMArena) surpasse GPT-5-Chat. Qwen3-Next (septembre 2025, 80B total/3B actifs) utilise une architecture MoE ultra-efficace. Qwen3 (avril 2025) inclut des modèles denses (0.6B-32B) et sparse (30B, 235B) entraînés sur 36T tokens en 119 langues avec capacités "thinking". QwQ est un modèle de raisonnement basé sur Qwen2.5 rivalisant avec DeepSeek-R1. Tous disponibles sous Apache 2.0.
Mistral AI Mistral Large 2.1, Mistral Medium 3, Mistral Small 3.1, Magistral 🔀 Hybride
(Small/Medium open source)
Mistral Large 2.1 (novembre 2024) est le modèle phare propriétaire pour les tâches enterprise sophistiquées. Mistral Medium 3 (mai 2025) offre 90% des performances de Claude Sonnet 3.7 à 8x moins cher ($0.4/$2 par M tokens). Mistral Small 3.1 (mars 2025) améliore les performances multimodales avec 128k tokens de contexte. Magistral (Small 24B open source, Medium propriétaire) sont les premiers modèles de raisonnement de Mistral, excellant en raisonnement multilingue transparent.
Groq GroqCloud (LLaMA 4, Mistral, Gemma) 🏗️ Infrastructure
(LPU)
Groq fournit une infrastructure d'inférence ultra-rapide pour les LLMs via GroqCloud, hébergeant les derniers modèles comme LLaMA 4, Mistral et Gemma. Grâce à ses unités de traitement linguistique (LPU) propriétaires, Groq offre des performances d'inférence supérieures avec une latence très faible (150 tokens/sec), adaptées aux applications en temps réel et aux déploiements à grande échelle.
xAI (Elon Musk) Grok-4, Grok-4 Fast 🔒 Propriétaire
(API + X intégré)
Grok-4 (juillet 2025) revendique la première place mondiale sur les benchmarks indépendants avec un score record de 15.9% sur ARC-AGI-2. Entraîné sur le cluster Colossus (200k GPUs), il excelle en raisonnement, mathématiques et codage avec intégration native d'outils et recherche temps réel. Grok-4 Fast offre des performances similaires avec 40% moins de tokens de réflexion et 98% de réduction de coût. Disponible pour tous les utilisateurs X (gratuit et premium) et via l'API xAI.

Évolution majeure en 2025 : L'écosystème LLM a connu des transformations significatives avec l'arrivée de GPT-5 (août), Claude 4 et LLaMA 4 (avril-mai), marquant l'ère des modèles hybrides combinant réponses instantanées et raisonnement approfondi. Les architectures MoE (Mixture of Experts) se généralisent, permettant des modèles ultra-performants mais économiques en ressources. Les badges colorés ci-dessus distinguent clairement les modèles : 🔒 Propriétaires (API payante), 🔓 Open Source (utilisation libre), 🔀 Hybrides (mix propriétaire/open source) et 🏗️ Infrastructure (plateformes d'hébergement). La compétition s'intensifie entre solutions propriétaires premium et alternatives open source de qualité comparable, démocratisant l'accès aux capacités d'IA avancées.

Méthodes de prompting

Il existe plusieurs techniques et bonnes pratiques pour formuler des prompts efficaces et obtenir de meilleurs résultats des LLM. En voici quelques-unes :

Méthode « Contexte – Action – Format – Échanges »

Cette méthode consiste à structurer le prompt en quatre parties pour guider au mieux le modèle :

  • Contexte : Présentez la situation ou les informations de base. Par exemple, indiquez au modèle qui il est ou quel rôle il joue (« Tu es un assistant qui aide à … »), et fournissez les données d'entrée pertinentes (texte à résumer, données chiffrées, etc.). Un bon contexte permet au LLM de comprendre le cadre de la demande.
  • Action : Indiquez clairement ce que vous attendez du modèle, la tâche à effectuer. Par exemple : « Résume le texte », « Traduis en anglais », « Donne-moi la liste des étapes… ». L'action doit être un verbe d'instruction pour lever toute ambiguïté sur la tâche.
  • Format : Spécifiez le format ou le style de réponse souhaité. Par exemple : « en 3 points clés », « sous forme de tableau », « réponds en utilisant du Markdown avec des titres et des listes ». Cela aide le modèle à présenter la réponse de manière organisée et conforme à vos besoins.
  • Échanges : Si nécessaire, incluez des exemples d'échange ou de résultat attendu. Par exemple, montrez un question-réponse type (« Q: … A: … ») pour illustrer ce que vous attendez, ou utilisez le few-shot prompting en fournissant 1 ou 2 exemples complets de question et réponse avant de poser la nouvelle question. Ces échanges servent de guide et permettent au modèle de mieux cerner le ton ou le niveau de détail attendu.

En appliquant C-A-F-É, on obtient des prompts plus complets. Par exemple : « Tu es un expert en histoire (contexte). Donne-moi les causes principales de la Révolution française (action) en utilisant un langage simple et en les numérotant (format). »

Balises Markdown utiles

Les LLM comprennent généralement le format Markdown et peuvent produire des réponses formatées. Vous pouvez donc demander une mise en forme pour améliorer la lisibilité des réponses :

  • # Titre : pour que le modèle organise la réponse avec des titres de sections.
  • - (liste à puces) ou 1. (liste numérotée) : pour présenter des éléments sous forme de liste.
  • **Texte en gras** : pour mettre en avant des notions importantes dans la réponse.
  • `Code` ou ```bloc de code``` : pour que le modèle formate une sortie de code ou un exemple de texte de manière distincte.

En indiquant ces préférences de format dans le prompt (par ex. « Réponds en Markdown en utilisant des listes à puces »), on obtient souvent des réponses mieux structurées.

Multishot prompting

Le multishot prompting consiste à fournir plusieurs exemples de question-réponse dans le prompt pour montrer au modèle exactement le type de réponse attendu, avant de poser la question finale. Par exemple, pour apprendre au modèle à formater une réponse d'une certaine manière, on peut donner deux exemples illustratifs. Comparé au zero-shot (aucun exemple) ou au one-shot (un seul exemple), le multishot (quelques exemples) aide le modèle à saisir le contexte par analogie. Attention toutefois : trop d'exemples peuvent allonger inutilement le prompt (et coûter des tokens).

Chaîne de pensée (Chain-of-Thought, CoT)

La technique de la chaîne de pensée encourage le modèle à dérouler un raisonnement étape par étape avant de donner sa réponse finale. On peut l'exploiter de deux façons. D'une part, en tant qu'utilisateur, vous pouvez inciter le LLM à « réfléchir à voix haute » en ajoutant dans le prompt : « Explique ton raisonnement avant de répondre » ou « Raisonne étape par étape ». Le modèle fournira alors ses étapes de réflexion, ce qui peut rendre la réponse plus fiable pour les problèmes complexes (maths, logique…). D'autre part, en interne, certains frameworks utilisent CoT automatiquement : ils génèrent des étapes cachées de raisonnement que vous ne voyez pas forcément, puis produisent la réponse finale. Dans tous les cas, la chaîne de pensée est utile pour les tâches de planification ou de résolution de problème car elle décompose le problème en sous-parties gérables.

Autres techniques utiles

  • Définir un rôle (persona) : Commencez le prompt en indiquant au LLM qui il est ou pour qui il doit répondre. Par exemple : « Tu es un professeur de français » ou « Tu réponds comme un expert en droit ». Cela peut influencer positivement le style et le registre de la réponse.
  • Imposer des contraintes explicites : N'hésitez pas à préciser des contraintes de longueur ou de style : « Réponds en moins de 100 mots », « Utilise un ton humoristique », « Fournis la réponse en JSON valide ». Plus le modèle connaît vos attentes précises, plus il peut s'y conformer.
  • Vérification et itération : Après une première réponse du modèle, vous pouvez affiner en demandant des corrections ou des précisions. Par exemple : « Peux-tu détailler le deuxième point ? » ou « Réécris la réponse avec un ton plus formel. ». Cette interaction itérative fait partie du processus de prompt engineering : on ajuste le tir en fonction de la sortie pour arriver au résultat désiré.

Exemples pratiques de prompts

Voici quelques exemples concrets de requêtes que l'on peut faire à un LLM, illustrant différentes utilisations :

Résumé de texte

Demande à l'IA de résumer un contenu long en quelques phrases concises :

Résume le texte suivant en trois phrases claires et concises : 

[TEXTE À RÉSUMER]

Correction d'email

Demande au modèle d'améliorer la rédaction d'un email en corrigeant les fautes et en améliorant le style :

Corrige les fautes d'orthographe et de grammaire de l'email suivant, et propose une formulation plus professionnelle tout en conservant le sens d'origine :

[Texte de l'email ici]

Organisation de voyage (CoT)

Utilise une chaîne de pensée pour planifier un voyage étape par étape :

Tu es un assistant de voyage. Aide-moi à planifier un itinéraire de voyage de 7 jours en Italie, en décrivant ton raisonnement étape par étape (chaque étape de pensée) puis en présentant l'itinéraire final jour par jour.

Veille thématique

Demande à l'IA de faire une synthèse des dernières nouvelles sur un sujet donné :

Agis comme un assistant de veille. Fais un résumé des trois actualités les plus marquantes de la semaine dans le domaine de la technologie, avec des puces pour chaque domaine (IA, mobile, cybersécurité…).

Améliorer un prompt

Demande au LLM d'analyser et de perfectionner un prompt peu efficace :

Voici un prompt qui ne donne pas de bons résultats : "[Mon prompt actuel]". Analyse ses faiblesses et propose-moi une version améliorée de ce prompt, en expliquant en quoi tes modifications peuvent améliorer la réponse de l'IA.

Génération d'image (style spécifique)

Exemple de prompt pour générer une image dans un style artistique particulier :

Une illustration numérique d'un chat jouant avec une pelote de laine, dans le style d'une peinture impressionniste de Claude Monet, couleurs pastel et lumière douce.

Méta-prompt

Demande au LLM de créér un prompt :

Tu es un expert en rédaction de prompt. Tu dialogues avec des élèves de niveau B1 en classe de FLE. Ton objectif est de m’aider à créer le meilleur prompt possible pour mes besoins. Ce prompt sera utilisé par ChatGPT pour produire le résultat final. Tu devras suivre les étapes suivantes. Dans ta première réponse, tu dois me demander quel est le sujet du prompt. Je fournirai ma réponse, mais nous devrons l’améliorer par le biais d’itérations continues en passant par les étapes suivantes. Sur la base de mon prompt, tu produiras deux réponses. 1) Prompt révisé (où tu fourniras le prompt réécrit, il doit être clair, concis et facile à comprendre), 2) Questions (pose quelques questions pertinentes pour avoir des informations supplémentaires pour améliorer le prompt). Nous poursuivrons ce processus itératif et je te fournirai des informations supplémentaires. Tu utiliseras des phrases simples de niveau B1. Tu mettras à jour le prompt dans la section “Prompt révisé” jusqu’à ce que je dise que nous avons terminé.

Chaque exemple ci-dessus montre comment formuler la demande pour orienter au mieux le modèle. N'hésitez pas à expérimenter en modifiant les prompts et à observer comment l'IA s'adapte aux nouvelles instructions.

Annuaire de liens

Voici les liens directs vers les principales plateformes d'IA conversationnelle, avec leurs applications web et mobiles :

Modèle / Assistant Organisation Application Web Application iOS Application Android
ChatGPT (GPT-4o) OpenAI chat.openai.com App Store Google Play
Le Chat Mistral AI chat.mistral.ai App Store Google Play
Gemini (ex-Bard) Google gemini.google.com App Store Google Play
Claude Anthropic claude.ai App Store Google Play
Grok xAI x.ai/grok
DeepSeek DeepSeek deepseek.com App Store Google Play
Microsoft Copilot Microsoft copilot.microsoft.com App Store Google Play
Meta AI Meta meta.ai Intégré dans Facebook, Instagram, WhatsApp Intégré dans Facebook, Instagram, WhatsApp
Perplexity AI Perplexity perplexity.ai App Store Google Play
NotebookLM Google notebooklm.google App Store Google Play
Qwen Alibaba qwen.chat

Ces plateformes offrent un accès direct aux modèles d'IA les plus avancés. La plupart proposent des versions gratuites avec des limitations, ainsi que des abonnements premium pour un usage intensif et l'accès aux dernières fonctionnalités.

Applications IA locales

Solutions pour exécuter des modèles d'IA en local, sur votre propre machine :

Nom Description Lien
Ollama Framework open-source pour exécuter facilement des modèles de langage (LLM) localement. Interface en ligne de commande simple pour télécharger, gérer et utiliser des modèles comme Llama, Mistral, Code Llama, etc. ollama.ai
LM Studio Interface graphique intuitive pour découvrir, télécharger et exécuter des modèles de langage localement. Compatible avec de nombreux formats de modèles et offre une API locale compatible OpenAI. lmstudio.ai
AnythingLLM Plateforme tout-en-un pour créer et déployer des assistants IA privés. Permet l'intégration de documents, la gestion de bases de connaissances et l'exécution de modèles en local ou via API. anythingllm.com

Liens utiles

Voici quelques liens utiles :

Nom Description Lien
Metaculus – Sondages IA Plateforme de prévisions collaboratives sur des questions liées à l'IA, permettant aux utilisateurs de faire des prédictions et de suivre les tendances. metaculus.com
compar:IA – Comparateur d'IA Outil gouvernemental français permettant de comparer anonymement différents modèles d'IA conversationnelle pour sensibiliser aux enjeux de l'IA générative. comparia.beta.gouv.fr
IA en classe – Réseau Canopé Ressources et formations pour intégrer l'intelligence artificielle dans l'enseignement, proposées par le Réseau Canopé. reseau-canope.fr
Vellum AI – Classement LLM Tableau de bord présentant les performances des modèles de langage de pointe sur divers benchmarks publics. vellum.ai
Leaderboard LLM FR – Hugging Face Classement des modèles de langage adaptés à la langue française, évalués sur des jeux de données spécifiques. huggingface.co