← Voir tous les articlesNicolas MalburetNicolas Malburet - 11 juil. 2025

LLM & Prompt Engineering : Le guide complet pour les exploiter efficacement

Les modèles de langage sont puissants, mais leur efficacité dépend avant tout de la qualité des instructions que nous leur donnons. Cet article vous guide pas à pas dans l’art du prompt engineering : comment structurer une demande, éviter les pièges, et exploiter tout le potentiel des LLM.

Au fil des sections, vous apprendrez aussi à identifier les cas d’usage techniques réellement utiles, et à comprendre le fonctionnement des agents autonomes, ces LLM augmentés capables d’agir et de raisonner par eux-mêmes.

Un guide essentiel pour passer du simple utilisateur au véritable architecte d'interactions intelligentes.

1. Prompt Engineering 101 : L'art de communiquer avec l'IA

L'importance cruciale du prompt engineering

Le prompt engineering, ou l'art de bien rédiger les instructions pour le LLM, est extrêmement important. Environ 80% du travail d'amélioration des performances peut être fait à ce niveau.

Un bon prompt peut améliorer significativement la qualité de la génération, parfois de manière spectaculaire.

Pourquoi est-ce si efficace ? Parce que vous influencez directement la distribution des probabilités du prochain token. Chaque mot de votre prompt compte.

La structure idéale d'un prompt

Une bonne structure de prompt devrait idéalement contenir trois éléments :

  1. Des instructions claires, bien écrites, et structurées

    Soyez précis dans vos demandes. Au lieu de "Écris quelque chose sur les voitures", préférez "Rédige un paragraphe de 150 mots expliquant les avantages des voitures électriques pour l'environnement urbain".

    Il est important de rédiger un prompt aussi précis que possible, un prompt vague (« Parle-moi de voitures ») donnera des résultats médiocres. Il faut aussi éviter d’être ambigu et d’utiliser des doubles négations.

  2. Des données externes délimitées et identifiées

    Pour les données que vous incluez dans le prompt mais qui ne sont pas des instructions (code, document, etc.), utilisez des délimiteurs.

    Exemples de délimiteurs efficaces :

    Backticks pour le code :

    function foobar() {
      return 42 ;
    }
    

    Du markdown, pour identifier les différentes parties du prompt :

    # Code
    code ici
    # Output format
    …
    

    Balises XML pour les documents :

    <début_document> contenu <fin_document>

    Cela aide le LLM à comprendre qu'il s'agit de contenu externe et non d'instructions à suivre. Les modèles ont été entraînés pour différencier instructions et contenu externe ainsi délimité.

  3. Des instructions sur le format de sortie souhaité

    Spécifiez clairement le format attendu : JSON, XML, tableau, liste, plan structuré...

    Cette précision guide la génération vers le résultat désiré.

Mettre en évidence les instructions critiques

Étant donné que les LLM ont été entraînés sur des données humaines où l'utilisation de majuscules met en valeur du texte, utiliser des majuscules pour des instructions très importantes augmente significativement leur impact sur la génération.

Exemple :

  • IMPORTANT : Ne génère jamais de contenu médical sans avertissement.
  • OBLIGATOIRE : Respecte strictement le format JSON demandé.

Cette technique peut corriger des erreurs récurrentes ou forcer le respect d'un format spécifique.

Le prompting en few-shot : apprendre par l'exemple

Le few-shot prompting est une technique simple mais redoutablement efficace : donner un ou plusieurs exemples de ce que l'on attend comme réponse au LLM.

Inclure un exemple dans le prompt augmente le champ lexical de la réponse attendue et donc la probabilité que le LLM génère les tokens correspondants à la réponse désirée.

Exemple pratique :

Extrait les informations clés de ce CV :

Exemple :

CV : "Jean Dupont, 5 ans d'expérience en marketing digital chez Google"

Sortie : {"nom": "Jean Dupont", "experience": "5 ans", "domaine": "marketing digital", "entreprise": "Google"}

Maintenant, traite ce CV :

[Votre CV à analyser]

Cette technique améliore énormément les performances du LLM.

La chaîne de raisonnement (Chain of Thought)

C'est une technique plus complexe mais très efficace pour améliorer les capacités d'un prompt.

Elle fait appel au mécanisme d'inférence : les tokens générés par le LLM sont ensuite utilisés par le LLM lui-même pour générer les tokens suivants.

L'idée est de demander au LLM de générer lui-même des étapes intermédiaires ou un plan avant de produire la réponse finale.

Ces tokens représentant le "raisonnement" sont ajoutés au prompt et guident la génération subséquente vers un résultat de meilleure qualité.

Même une instruction simple comme "pense étape par étape" peut forcer le LLM à structurer sa pensée avant de générer la réponse complète.

Exemple concret :

Résous ce problème étape par étape :

Une entreprise a 100 employés. 30% travaillent en marketing, 40% en développement, le reste en support. Combien d'employés travaillent en support ?

La chaîne de raisonnement utilise les tokens générés par le LLM pour améliorer la qualité de sa production finale.

✅ Checklist : Maîtriser le prompt engineering

  • [ ] Structurer vos prompts en 3 parties : instructions, données, format
  • [ ] Utiliser des délimiteurs clairs pour les données externes
  • [ ] Mettre en majuscules les instructions critiques
  • [ ] Inclure des exemples concrets (few-shot) quand c'est pertinent
  • [ ] Demander au LLM de réfléchir étape par étape pour les tâches complexes
  • [ ] Tester et itérer sur vos prompts pour optimiser les résultats
  • [ ] Documenter vos prompts les plus efficaces pour réutilisation

2. Cas d'usage techniques : Exploiter la puissance des LLM

Exploration et recherche d'information

Le premier cas d'usage majeur des LLM est la récupération d'information.

Les utilisateurs font maintenant des requêtes à des applications basées sur des LLM (comme ChatGPT) au lieu de faire des recherches Google traditionnelles.

Cette approche permet d'obtenir des réponses plus précises et surtout contextualisées par rapport à la situation spécifique de l'utilisateur.

L'impact est notable : les développeurs utilisent moins Stack Overflow depuis l'avènement de ChatGPT, préférant poser leurs questions techniques directement à l'IA.

Avantages de cette approche :

  • Réponses personnalisées au contexte
  • Pas besoin de parcourir plusieurs sources
  • Explications adaptées au niveau de l'utilisateur
  • Possibilité de poser des questions de suivi

Génération d'entités structurées

C'est un cas d'usage très répandu et particulièrement puissant.

Il s'agit d'utiliser un LLM pour prendre des données non structurées (texte libre, documents) ou des inputs utilisateurs et de lui demander de générer des données dans un format structuré attendu (souvent du JSON).

Ces données structurées peuvent ensuite être parsées et sauvegardées dans une base de données.

Exemples concrets :

  • Extraction de caractéristiques produit :
    Input : "iPhone 15 Pro Max, 256Go, bleu titane, écran 6.7 pouces"
    Output : { "marque": "Apple", "modele": "iPhone 15 Pro Max", "stockage": "256Go", "couleur": "bleu titane", "taille_ecran": "6.7 pouces" }
  • Analyse de CV :
    Input : CV en texte libre
    Output : { "nom": "Jean Dupont", "experience": "5 ans", "competences": ["Python", "SQL", "Machine Learning"], "formation": "Master Informatique" }

Dans le cas de Didask, l'utilisation de LLM pour générer des plans de formation a triplé la productivité de l'équipe.

Ce cas d'usage permet d'automatiser la création ou l'extraction d'entités métiers. Il est aussi utile pour aider les utilisateurs à remplir des formulaires ou générer du contenu initial (syndrome de la page blanche).

RAG : Retrieval Augmented Generation

Le RAG est une méthode révolutionnaire pour permettre aux LLM d'accéder à des connaissances qui ne sont pas dans leurs données d'entraînement.


Cas d'usage typiques :

  • Données privées d'une entreprise
  • Documentation interne
  • Bases de connaissances spécifiques
  • Données qui changent fréquemment

Comment fonctionne le RAG ?
  1. Ingestion : On regroupe les données sous forme de documents texte
  2. Indexation : Ces données sont stockées dans un moteur de recherche avec des capacités sémantiques sous forme de chunks (des sous-parties du document)
  3. Requête : L'utilisateur pose une question
  4. Recherche : Le système trouve les extraits les plus pertinents parmi ceux stockés dans le moteur de recherche sémantique
  5. Augmentation : Ces extraits sont injectés dans le prompt du LLM
  6. Génération : Le LLM répond en utilisant ces informations externes


Architecture technique :

LLM Diagramme RAG

Le RAG permet au LLM de fournir des réponses contextualisées avec des informations spécifiques : bases de données clients, code source, documentation technique...

Cette approche est généralement préférée au fine-tuning pour les données qui changent fréquemment ou qui sont très volumineuses, car elle est moins coûteuse et ne souffre pas du problème de l'oubli impossible.


Cas d'usage concrets :

  • Assistants de support interne
  • Assistance commerciale personnalisée
  • Aide à l'onboarding des nouveaux employés
  • Assistance technique sur du code propriétaire

Difficultés associées au RAG

La constitution des données du moteur de recherche impacte fortement l’efficacité du RAG.

Il est primordial que les documents indexés soient pertinents, à jour, et structurés de manière exploitable. Une mauvaise sélection peut entraîner des réponses hors sujet ou inexactes.

Le chunking, c’est-à-dire la découpe des documents en segments (ou chunks), est tout aussi déterminant : s’ils sont trop longs, ils risquent de dépasser la fenêtre contextuelle ou de diluer l'information clé ; trop courts, ils perdent le contexte nécessaire à la compréhension. Trouver le bon équilibre est donc essentiel pour garantir des récupérations précises et des réponses cohérentes.

✅ Checklist : Implémenter les cas d'usage techniques


Pour la recherche d'information :

  • [ ] Identifier les sources d'information critiques de votre organisation
  • [ ] Évaluer la fréquence de mise à jour des données
  • [ ] Tester les performances de recherche vs solutions existantes

Pour la génération d'entités structurées :

  • [ ] Mapper vos processus de saisie de données actuels
  • [ ] Définir les schémas JSON de sortie souhaités
  • [ ] Créer des exemples few-shot pour chaque type d'entité
  • [ ] Mettre en place la validation des données structurées générées
  • [ ] Mesurer les gains de productivité obtenus

Pour le RAG :

  • [ ] Auditer vos sources de données internes
  • [ ] Choisir votre moteur de recherche (Elasticsearch, Pinecone, etc.)
  • [ ] Implémenter la pipeline d'ingestion des documents
  • [ ] Configurer la génération d'embeddings
  • [ ] Optimiser la pertinence des résultats de recherche
  • [ ] Tester la qualité des réponses sur des cas réels

3. Qu'est-ce qu'un agent ? Vers l'autonomie des LLM

Définition et concept fondamental

Le terme "agent" est un peu un buzzword, mais il désigne une utilisation spécifique et avancée des LLM.

Un agent est la combinaison d'un LLM et d'outils (tools).

Alors que les LLM classiques se contentent de générer du texte, les agents peuvent agir dans le monde réel grâce aux outils qui leur sont fournis.

Le mécanisme des outils (tools)

Les LLM génèrent du texte, et dans le cas d'un agent, ce texte peut être structuré (par exemple, en JSON) pour indiquer une action à exécuter via un outil.

Un outil est généralement :

  • Une fonction programmatique
  • Un appel d'API
  • Une interaction avec une base de données
  • Un envoi d'email
  • Une recherche dans des logs
  • Une analyse de code

Exemple de génération d'action :

{ "action": "send_email", "parameters": { "to": "client@example.com", "subject": "Suivi de votre commande", "body": "Votre commande est prête..." } }

La boucle agent : action, résultat, réflexion

Le programme externe à l'agent va parser la sortie du LLM (le JSON de l'action) et exécuter l'outil correspondant.

Le retour de l'outil (résultat, succès, erreur) est ensuite réinjecté dans le prompt envoyé au LLM.

Cette capacité à recevoir le résultat de ses actions dans le prompt permet au LLM de comprendre ce qui s'est passé et de planifier l'ensemble des actions suivantes.


La boucle complète :

LLM Loop

La gestion d'état : mémoire de l'agent

Un agent maintient un "état" constitué de l'ensemble des actions effectuées et leurs retours. Cet état est réinjecté dans le prompt à chaque étape pour que l'agent comprenne où il en est dans l'exécution de sa tâche.

Cette semi-autonomie permet à l'agent d'exécuter des tâches complexes en plusieurs étapes sans intervention humaine constante.

Exemples concrets d'agents

  • Assistant e-commerce :
    • Écoute les conversations clients
    • Détecte les signaux d'achat
    • Recommande des produits au bon moment
    • Gère le processus de commande
  • Agent de débogage :
    • Analyse les logs d'erreur
    • Examine le code source correspondant
    • Identifie les causes probables du bug
    • Propose des solutions ou des correctifs
  • Agent de support technique :
    • Reçoit un ticket client
    • Recherche dans la base de connaissances
    • Teste des solutions potentielles
    • Escalade si nécessaire

Les défis techniques des agents

Les agents sont l'un des concepts les plus difficiles en LLM engineering.


Complexité de planification :

  • Gérer des tâches multi-étapes
  • Récupérer d'erreurs d'exécution
  • Optimiser l'ordre des actions

Agents web : Les agents qui interagissent avec le web sont particulièrement complexes à cause de :

  • La complexité du HTML moderne
  • Les manipulations d'interface utilisateur
  • Les mesures anti-bot croissantes sur internet
  • La variabilité des sites web

Fiabilité :

  • Les agents peuvent échouer à différentes étapes
  • La gestion d'erreur doit être robuste
  • La supervision humaine reste nécessaire pour les tâches critiques

L'avenir des agents

Les agents représentent l'évolution naturelle des LLM vers plus d'autonomie et d'utilité pratique.

Ils transforment les LLM de simples générateurs de texte en véritables assistants numériques capables d'accomplir des tâches complexes.

Cependant, nous sommes encore aux premiers stades de cette technologie, et la supervision humaine reste essentielle pour les déploiements en production.

✅ Checklist : Développer des agents efficaces


Conception :

  • [ ] Définir clairement les tâches que l'agent doit accomplir
  • [ ] Identifier tous les outils nécessaires à ces tâches
  • [ ] Concevoir l'architecture de gestion d'état
  • [ ] Prévoir les cas d'erreur et de récupération

Développement :

  • [ ] Implémenter les outils avec gestion d'erreur robuste
  • [ ] Créer la boucle agent (LLM → action → résultat → LLM)
  • [ ] Tester exhaustivement chaque outil individuellement
  • [ ] Valider les interactions entre outils multiples

Déploiement :

  • [ ] Mettre en place un monitoring des actions d'agent
  • [ ] Configurer des alertes pour les échecs critiques
  • [ ] Prévoir une escalade vers supervision humaine
  • [ ] Documenter les limites et cas d'usage supportés

Conclusion : Maîtriser l'IA générative pour transformer votre activité

L'intelligence artificielle générative n'est plus une technologie émergente réservée aux géants tech. C'est devenu un outil stratégique accessible qui transforme déjà la façon dont nous travaillons, créons et innovons.

Comprendre les mécanismes sous-jacents des LLM vous donne un avantage concurrentiel décisif. Vous savez maintenant que derrière chaque réponse se cache un processus probabiliste complexe, que chaque token généré influence les suivants, et que la qualité de vos prompts détermine directement la pertinence des résultats obtenus.

Le prompt engineering représente votre levier d'action le plus immédiat et le plus rentable. Avant d'investir dans du fine-tuning coûteux ou des infrastructures complexes, exploitez pleinement les techniques que nous avons abordées : structuration claire, délimiteurs appropriés, exemples concrets, chaîne de raisonnement.

Les cas d'usage techniques que nous avons explorés - de la simple recherche d'information aux agents autonomes - illustrent l'étendue des possibilités. Mais rappelez-vous : commencez simple, mesurez les résultats, puis montez en complexité progressivement.

L'écosystème des modèles évolue rapidement, mais les principes fondamentaux restent constants. Que vous choisissiez GPT, Claude, Gemini ou Llama, les mêmes règles s'appliquent : la qualité des données d'entraînement détermine les capacités, la supervision humaine reste indispensable, et les hallucinations font partie du paysage.

Les agents représentent l'avenir proche de cette technologie, transformant les LLM en véritables assistants numériques. Mais cette autonomie accrue s'accompagne d'une complexité technique et d'enjeux de fiabilité qu'il faut anticiper.

Votre prochaine étape ? Identifiez un cas d'usage concret dans votre organisation, commencez par un prototype simple, et itérez en vous appuyant sur les fondamentaux que vous maîtrisez maintenant.

L'IA générative n'est pas magique - c'est de l'ingénierie appliquée avec méthode. Et vous avez maintenant les clés pour l'exploiter efficacement.

Prêt à passer à l'action ? Commencez par auditer vos processus actuels, identifiez les tâches répétitives qui pourraient bénéficier de l'automatisation intelligente, et lancez votre premier projet pilote. L'avenir appartient à ceux qui maîtrisent ces outils dès aujourd'hui.