Mes premiers pas en traitement automatique des langues

Sommaire
- Introduction au TAL/NLP
- Sept décennies d'histoire
- L'écosystème LLM moderne
- Les données et les corpus
- Représentation des connaissances
- L'architecture Transformer
- Extraction d'information
- Recherche d'information et agents
- Réglementation et éthique
- Slides du cours
1. Introduction au TAL/NLP
Les textes que nous produisons chaque jour — articles, emails, tweets, contrats, tickets de support — constituent l'une des ressources les plus riches et les plus sous-exploitées de notre époque. Le traitement automatique du langage (TAL, ou NLP en anglais) est la discipline qui cherche à donner aux machines la capacité de lire, comprendre et produire ce langage.
Concrètement, le NLP désigne l'ensemble des techniques permettant de traiter des contenus textuels sous toutes leurs formes : livres, blogs, forums, SMS, tweets... pour en extraire et en représenter l'information. L'objectif est de structurer ce qui est, par nature, non structuré.
L'explosion de la quantité de données textuelles nécessite des traitements automatiques pour valoriser les contenus — l'or des données — pour les comprendre et pour les chercher.
Les applications couvrent des domaines très variés :
| Tâche | Description |
|---|---|
| Extraction d'information | Identifier et extraire des faits structurés depuis un texte brut |
| Classification documentaire | Ranger automatiquement des documents dans des catégories (supervisé ou non) |
| Recherche d'information | Trouver des documents pertinents à partir d'une requête |
| Question / Réponse | Trouver une réponse courte et précise en langage naturel |
| Résumé automatique | Condenser un document long en quelques phrases essentielles |
| Traduction automatique | Traduire un texte dans n'importe quelle langue cible |
| Analyse de sentiments | Déterminer si le propos d'un texte est positif, négatif ou neutre |
Le langage écrit est cependant d'une complexité redoutable. Les alphabets diffèrent d'une langue à l'autre, les mots se composent (en allemand, Donaudampfschiffahrtsgesellschaft est un seul mot signifiant « Société de navigation à vapeur du Danube »), les règles grammaticales se contredisent, et les usages numériques — langage SMS, emoji, hashtags — ne cessent de déformer les normes établies. C'est précisément pour relever ces défis que le domaine a connu une révolution spectaculaire avec les modèles Transformers.
2. Sept décennies d'histoire
Le NLP n'est pas une discipline récente. Elle est née avec l'informatique elle-même, portée par le rêve de faire communiquer les hommes et les machines. Son évolution peut se lire comme une succession de paradigmes, chacun supplantant le précédent dès qu'une nouvelle génération d'algorithmes ou de puissance de calcul émerge.
1950–1960 — Les pionniers et les règles Premières expérimentations en linguistique computationnelle et en traduction automatique. Les systèmes sont entièrement fondés sur des règles codées manuellement par des linguistes.
1970–1990 — L'essor des statistiques L'approche statistique s'impose avec les modèles de langage probabilistes, les chaînes de Markov cachées (HMM) et les modèles de Markov conditionnels (CRF).
1990–2000 — Les premiers réseaux de neurones Les réseaux de neurones font leur apparition dans le domaine du NLP. Leurs performances sont encore limitées, mais la voie est tracée.
2010 — L'ère des word embeddings Word2Vec, GloVe et leurs descendants révolutionnent la représentation des mots : chaque terme devient un vecteur dense dans un espace continu, capturant sa sémantique et améliorant sensiblement les performances des modèles.
2017 — « Attention is All You Need » Google Brain publie l'article fondateur des Transformers. L'architecture d'attention permet de capturer les dépendances à long terme dans le texte avec une efficacité inégalée, et surpasse tous les modèles précédents.
2018–présent — L'ère des grands modèles de langage BERT, GPT-2, GPT-3, puis les LLM modernes (GPT-4, Claude, Gemini, Llama) repoussent toutes les frontières. Ces modèles pré-entraînés sur d'immenses corpus deviennent les nouvelles fondations du NLP industriel. Entraînés sur de vastes corpus de texte, ils peuvent être adaptés à des tâches spécifiques avec peu de données d'entraînement supplémentaires.
3. L'écosystème LLM moderne
La révolution 2022–2025
En moins de trois ans, le paysage des modèles de langage a été totalement reconfiguré. Quatre moments clés expliquent cette accélération sans précédent.
2022 — ChatGPT et le RLHF. OpenAI lance ChatGPT en propulsant les LLM dans le grand public grâce au Reinforcement Learning from Human Feedback (RLHF) — une technique d'alignement par préférence humaine qui transforme un modèle de prédiction de texte en assistant conversationnel.
2023 — La démocratisation. GPT-4, Claude 2 et Gemini arrivent côté propriétaire, tandis que l'open source explose avec Llama 2, Falcon 40B ou Mistral 7B, atteignant des performances remarquables avec dix fois moins de paramètres.
2024 — Efficacité et contexte long. Gemini 1.5 Pro traite jusqu'à un million de tokens. L'accent passe de la puissance brute à l'efficacité, la sécurité et le contrôle.
2025 — Raisonnement et agents. Les modèles o3 (OpenAI) et DeepSeek R1 « pensent » avant de répondre (Chain-of-Thought interne). Les agents autonomes multi-tâches et les modèles multimodaux natifs deviennent grand public.
Les grandes familles de modèles
L'écosystème se divise entre modèles propriétaires (accès via API, opacité) et modèles open-source (poids disponibles, customisables) :
| Modèle | Organisation | Caractéristique clé |
|---|---|---|
| GPT-4o | OpenAI | Multimodal (texte + image + audio), 128K tokens de contexte |
| Claude 4 | Anthropic | Raisonnement complexe, documents longs (200K tokens), sécurité |
| Gemini 2.0 | Google DeepMind | Nativement multimodal, 1 million de tokens de contexte |
| Llama 3.3 70B | Meta | Open-source de référence, déployable localement |
| Mistral Large | Mistral AI | Modèle européen open-weight, Mixture-of-Experts |
| DeepSeek R1 | DeepSeek | Raisonnement open-source, égale o1 sur maths et code |
Les benchmarks de référence
Pour mesurer objectivement ces modèles, plusieurs benchmarks s'imposent : MMLU (57 disciplines académiques, GPT-4 dépasse 86 %), HumanEval (génération de code), TruthfulQA (tendance aux hallucinations), et Chatbot Arena où des humains comparent deux modèles en aveugle. Attention cependant : un modèle peut être involontairement entraîné sur les données de test (data contamination), faussant son score réel.
4. Les données et les corpus
Pourquoi les données décident de tout
Un modèle n'est jamais meilleur que le corpus qui l'a nourri. Cette vérité, souvent résumée par le principe Garbage In, Garbage Out, est pourtant sous-estimée dans les projets où l'attention se concentre sur les hyperparamètres plutôt que sur la matière première.
Dans un projet TAL réel, 60 à 80 % du temps et des ressources est consacré à la collecte, au nettoyage et à l'annotation — pas à la modélisation.
Les travaux de DeepMind (rapport Chinchilla, 2022) ont montré qu'à budget de calcul fixé, l'optimum se situe autour de 20 tokens de données par paramètre. Les corpus RefinedWeb et FineWeb l'ont illustré : moins de volume mais plus de signal utile améliore les performances plus que l'ajout de données brutes.
Le cycle de vie de la donnée
01 — Collecte Web ouvert à grande échelle (Common Crawl, OSCAR, FineWeb), corpus curés (Wikipédia, presse), données propriétaires (tickets clients, contrats), ou génération synthétique par LLM pour les cas rares ou sensibles. La licence de chaque source conditionne son usage en entraînement — l'AI Act impose aux modèles GPAI un résumé public des données d'entraînement.
02 — Filtrage et nettoyage Normalisation d'encodage (UTF-8, NFC), suppression du boilerplate HTML, filtrage par langue (fastText/langid), heuristiques de qualité (longueur, ratio ponctuation, perplexité KenLM), déduplication exacte (SHA) et quasi-exacte (MinHash+LSH), retrait des contenus toxiques et des données personnelles (obligation RGPD). Sur un corpus web typique, on passe de 100 % brut à environ 30 % exploitable.
03 — Analyse exploratoire (EDA) Statistiques descriptives, profilage du vocabulaire (loi de Zipf), détection d'anomalies, visualisation par embeddings réduits (PCA/t-SNE/UMAP). L'EDA conditionne tous les choix en aval : longueur de séquence maximale, stratégie d'équilibrage, découpage en chunks.
04 — Transformation Normalisation textuelle, tokenisation en sous-mots (BPE, WordPiece, Unigram LM), vectorisation en embeddings contextuels, structuration du non-structuré vers une représentation exploitable par le modèle.
05 — Annotation Création de la vérité-terrain supervisée : annotation manuelle avec double vérification (accord inter-annotateurs mesuré par le kappa de Cohen), apprentissage actif pour réduire les coûts, supervision faible via Snorkel, pré-annotation par LLM avec validation humaine. Outils : Label Studio, Prodigy, doccano, Argilla.
06 — Versioning et gouvernance DVC, Git-LFS, lakeFS pour répondre à la question clé : quel corpus exact a produit ce modèle ? Traçabilité avec DataHub ou Amundsen, orchestration DataOps avec Airflow, Dagster, MLflow.
5. Représentation des connaissances
De la donnée à la sagesse
La pyramide DIKW formalise la montée en abstraction : depuis la donnée brute (un chiffre, un nom), vers l'information contextualisée, puis la connaissance raisonnée (permettant la déduction logique), jusqu'à la sagesse (le jugement critique). Les ontologies et les graphes de connaissances formalisent ce niveau de connaissance pour les machines.
Pourquoi le symbolique reste indispensable à l'ère des LLM
Les réseaux de neurones ne peuvent pas, seuls, garantir :
- L'ancrage factuel — relier les vecteurs probabilistes à des faits certifiés réduit drastiquement les hallucinations.
- L'explicabilité — une ontologie offre une trace d'inférence logique auditable étape par étape, contrairement aux boîtes noires neuronales.
- L'édition de connaissances — modifier un fait erroné dans un graphe prend une milliseconde avec une cohérence absolue, impossible dans les poids d'un LLM.
- L'interopérabilité — partager un vocabulaire commun et des contraintes métier immuables entre systèmes hétérogènes.
Ontologies et logiques de description
Les ontologies formalisées en OWL 2 s'articulent autour du découpage TBox / ABox / RBox :
- La TBox (Terminological Box) définit le schéma général — Humoriste ⊑ Artiste.
- L'ABox (Assertional Box) contient les faits sur les individus réels — Humoriste(Gaston_LaGaffe).
- La RBox (Role Box) décrit les propriétés des relations (transitivité, symétrie, inverse).
Les raisonneurs sémantiques (HermiT, Pellet, FaCT++) exploitent l'algorithme du Tableau pour inférer automatiquement de nouveaux liens logiques et détecter les contradictions.
Une divergence fondamentale sépare la KR sémantique des bases de données classiques : l'hypothèse de monde ouvert (OWA — OWL/RDF) suppose que si un fait n'est pas présent, il est inconnu ; l'hypothèse de monde fermé (CWA — SQL/SHACL) suppose qu'il est faux. Cette distinction est cruciale pour éviter des erreurs de modélisation.
Graphes de connaissances
Les graphes de connaissances (Knowledge Graphs) — popularisés par Google en 2012 avec le slogan « things, not strings » — concrétisent ces formalismes à l'échelle industrielle. Wikidata, DBpedia et YAGO en sont les exemples emblématiques ouverts.
Deux modèles techniques s'affrontent : les graphes RDF (triplets standardisés W3C, requêtes SPARQL, sémantique forte) et les graphes de propriétés LPG (Neo4j, Cypher, plus expressifs localement). RDF-star résout la limitation native de RDF à représenter des métadonnées sur les faits eux-mêmes.
L'architecture neuro-symbolique, qui combine la flexibilité connexionniste des LLM avec la rigueur symbolique des ontologies, est aujourd'hui considérée comme l'architecture d'avenir des systèmes RAG augmentés par graphes (KG-augmented LLMs).
6. L'architecture Transformer
La percée de 2017
En 2017, Ashish Vaswani et son équipe chez Google Brain publient « Attention is All You Need ». L'idée est radicale : abandonner les réseaux récurrents (RNN/LSTM), leur traitement séquentiel et leur difficulté à capturer les dépendances longue distance, pour une architecture entièrement fondée sur l'attention.
Les Transformers présentent huit avantages décisifs par rapport aux approches précédentes : capture des dépendances à long terme, attention multi-têtes, adaptabilité à différentes tâches, apprentissage auto-supervisé, fine-tuning sur des tâches spécifiques, réduction du besoin d'ingénierie des caractéristiques, état de l'art sur de nombreuses tâches, et généralisation à des langues et domaines divers.
Architecture globale
L'architecture Transformer se compose de deux blocs principaux :
L'encodeur traite la séquence d'entrée et produit une représentation cachée. Chaque bloc d'encodeur contient : un mécanisme d'attention multi-têtes, une couche feedforward, et des connexions résiduelles avec normalisation LayerNorm.
Le décodeur prend la représentation cachée et génère la sortie token par token. Il ajoute un mécanisme d'auto-attention masquée (pour ne pas « voir » les tokens futurs) et une attention croisée vers la sortie de l'encodeur.
L'encodage positionnel est ajouté aux embeddings pour que le modèle comprenne l'ordre des tokens dans la séquence.
Le mécanisme d'attention
Au cœur du Transformer se trouve le mécanisme d'attention. Pour chaque token, on calcule trois vecteurs :
- Q (Query) — ce que ce token cherche
- K (Key) — ce que chaque token offre
- V (Value) — l'information que chaque token porte
Le score d'attention entre deux positions est la similarité entre Q et K. Les valeurs V sont ensuite combinées en proportion de ces scores, permettant au modèle de se concentrer sur les parties les plus pertinentes de la séquence. L'attention multi-têtes répète ce processus en parallèle avec différentes projections, capturant simultanément plusieurs types de relations.
Tokenisation
La tokenisation en sous-mots (BPE, WordPiece, Unigram LM) est la brique fondamentale de tout pipeline Transformer moderne. Un vocabulaire limité — 30 000 sous-mots pour BERT-small — suffit à couvrir l'ensemble d'une langue. Chaque sous-mot est associé à un vecteur dense (embedding) qui forme la représentation numérique du texte.
Alignement et fine-tuning efficace
RLHF (Reinforcement Learning from Human Feedback) : après un premier fine-tuning supervisé (SFT), des annotateurs classent les réponses par préférence. Un reward model est entraîné sur ces comparaisons, et le LLM est optimisé avec l'algorithme PPO pour maximiser ce score. C'est la technique qui a créé ChatGPT.
DPO (Direct Preference Optimization, 2023) : alternative plus simple au RLHF, apprenantdirectement depuis des paires (réponse préférée / rejetée) sans reward model explicite.
LoRA (Low-Rank Adaptation, 2022) : au lieu de modifier tous les poids, on injecte de petites matrices de faible rang dans les couches d'attention. Seulement 0,1 à 1 % des paramètres sont entraînés, pour un coût réduit de 95 %. QLoRA y ajoute une quantification 4-bit pour fine-tuner Llama 3 70B sur un seul GPU de 48 Go.
7. Extraction d'information
Morphosyntaxe (POS tagging)
Chaque token reçoit une étiquette grammaticale (nom, verbe, déterminant...) et son lemme (forme canonique). Cette étape permet de calculer des stopwords contextuels et d'alimenter les traitements suivants. Les Transformers abordent ce problème comme une classification séquentielle : pour chaque token, le modèle prédit l'étiquette la plus probable parmi un ensemble fermé (ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, VERB...).
La lemmatisation retrouve la forme canonique (chante → chanter), plus précise que la racinisation (stemming) qui coupe mécaniquement les terminaisons. La morphosyntaxe introduit une ambiguïté fondamentale : « La belle ferme le voile » contient trois lectures possibles selon les étiquettes attribuées.
Extraction d'entités nommées (NER)
L'objectif est de repérer et de classer les entités dans le texte : personnes (PER), lieux (LOC), organisations (ORG), et bien d'autres selon la hiérarchie de Sékine. Le schéma d'étiquetage BIO (Beginning-Inside-Outside) délimite précisément les frontières de chaque entité.
Les difficultés sont nombreuses : variabilité orthographique et acronymes, ambiguïtés contextuelles (Paris : ville ou prénom ?), entités nouvelles absentes des données d'entraînement, entités composites multi-mots. Le modèle Transformer aborde la NER exactement comme le POS tagging — classification token par token — seules les étiquettes changent.
Analyse syntaxique
Le chunking (analyse superficielle) identifie les syntagmes — nominal (SN), verbal (SV), adjectival — sans construire un arbre complet.
L'analyse en dépendances construit un arbre dont les nœuds sont les mots et les arêtes sont des relations typées (sujet nominal nsubj, objet obj, déterminant det...), révélant la structure profonde de la phrase : Pierre dort le jour → dort est la racine, Pierre son sujet, jour son objet, le son déterminant.
Extraction de mots-clés
Même principe que la NER — classification token par token avec les étiquettes KEY, B-KEY (début de mot-clé) et I-KEY (intérieur). Les Transformers identifient les termes qui résument et catégorisent le contenu avec plus de précision que les approches purement statistiques (TF-IDF).
8. Recherche d'information et agents
Les paradigmes de recherche
Bases relationnelles et Text-to-SQL. Les Transformers permettent de traduire une question en langage naturel en requête SQL — « Quelles sont toutes les personnes vivant à Ville Joyeuse ? » devient un SELECT ... WHERE. Cette convergence ouvre la voie à des interfaces plus naturelles sur des bases de données structurées.
Index inversés. La structure fondatrice des moteurs de recherche : pour chaque terme, la liste triée des documents qui le contiennent. Les Transformers enrichissent ce pipeline en amont (expansion sémantique des requêtes, gestion des synonymes, correction orthographique) et en aval (reranking contextuel des résultats).
Bases vectorielles. Les embeddings issus des Transformers permettent une recherche par similarité sémantique dans un espace vectoriel continu. Les index HNSW (Hierarchical Navigable Small World) rendent cette recherche approximative mais ultra-rapide sur des millions de vecteurs. FAISS, Chroma et leurs homologues sont devenus les briques fondamentales des architectures RAG.
RAG (Retrieval-Augmented Generation). L'architecture dominante pour réduire les hallucinations : le LLM reçoit dans son contexte les documents les plus pertinents récupérés par la base vectorielle, et génère une réponse ancrée dans des sources vérifiées. Le pipeline RAG-Fusion étend ce paradigme en générant plusieurs reformulations de la requête et en fusionnant les résultats.
Les agents LLM
Les agents vont plus loin que la simple génération : le modèle joue le rôle d'un cerveau qui perçoit un contexte, raisonne sur un objectif, planifie les étapes et exécute des actions via des outils externes.
Le pattern ReAct (Reason + Act) est la boucle fondamentale : Thought (raisonnement interne) → Action (appel d'outil) → Observation (résultat) → Thought... jusqu'à la réponse finale.
Les composants clés d'un agent : le LLM (raisonnement et planification), les outils (recherche web, exécution de code, APIs, bases de données), la mémoire court-terme (historique de conversation) et la mémoire long-terme (base vectorielle).
Les frameworks principaux de l'écosystème :
- LangChain — le plus populaire, agents ReAct et Function Calling, écosystème très riche
- LlamaIndex — spécialisé dans les pipelines RAG sur corpus documentaires
- AutoGen (Microsoft) — multi-agents conversationnels avec rôles spécialisés
- CrewAI — orchestration d'équipes d'agents avec objectifs définis
- Smolagents (HuggingFace) — agents légers open-source, écriture et exécution de code Python
- Haystack — pipelines RAG hybrides en production
Systèmes de questions/réponses et autres tâches
Les systèmes Q&A exploitent le mécanisme d'attention pour identifier, dans un texte contexte, le span de réponse le plus probable (vecteurs de probabilité de début et de fin de réponse).
L'analyse de sentiments peut se faire au niveau du token (classification séquentielle) ou du texte entier (un vecteur de logits pour l'ensemble du document), selon la granularité souhaitée.
Le résumé automatique combine approche extractive (sélection des passages les plus pertinents via l'attention) et générative (production d'un texte nouveau avec un modèle encodeur-décodeur). La génération se fait mot par mot selon trois stratégies : greedy (probabilité maximum), sampling (loi multinomiale) ou beam search (conservation des n meilleures séquences partielles).
Les modèles multimodaux (CLIP, GPT-4V, LLaVA, Gemini 2.0) traitent simultanément texte, images, audio et vidéo dans un espace de représentation partagé. Ils ouvrent des cas d'usage inédits : OCR avancé sur factures, recherche image par texte, agents visuels capables de « voir » un écran, accessibilité pour malvoyants, analyse d'imagerie médicale.
9. Réglementation et éthique
Le cadre européen
Les LLM sont désormais déployés dans des contextes critiques — santé, justice, finance, ressources humaines — ce qui soulève des questions fondamentales : qui est responsable d'une décision erronée automatisée ? Comment protéger les données personnelles à grande échelle ? Quels recours pour les personnes affectées ?
L'Union Européenne a construit un cadre réglementaire multicouche :
| Texte | Acronyme | Objet | En vigueur |
|---|---|---|---|
| General Data Protection Regulation | RGPD | Protection des données personnelles | 2018 |
| Network and Information Security 2 | NIS2 | Cybersécurité des entités critiques | 2024 |
| Digital Operational Resilience Act | DORA | Résilience numérique du secteur financier | 2025 |
| Cyber Resilience Act | CRA | Sécurité des produits connectés | 2025 |
| EU AI Act | AI Act | Régulation des systèmes d'IA | 2024–2027 |
Le RGPD et les LLM
Le RGPD s'applique dès lors qu'un traitement concerne des données personnelles — et les LLM en consomment massivement à chaque étape. Trois points de friction principaux :
- L'entraînement — les corpus peuvent contenir des données personnelles collectées sans base légale.
- L'inférence — les prompts soumis par les utilisateurs constituent fréquemment des données personnelles.
- La mémorisation — les LLM peuvent restituer des données sensibles mémorisées lors de l'entraînement (memorization attacks). Le machine unlearning reste un problème ouvert.
L'AI Act : une approche par les risques
L'AI Act (Règlement 2024/1689) classe les systèmes d'IA en quatre niveaux :
- Risque inacceptable → Interdit — notation sociale généralisée, manipulation subliminale, reconnaissance faciale en temps réel dans les espaces publics.
- Risque élevé → Obligations strictes — recrutement, crédit, justice, éducation → tests de robustesse, logs, supervision humaine obligatoire, marquage CE.
- Risque limité → Transparence obligatoire — chatbots → l'utilisateur doit être informé qu'il interagit avec une IA.
- Risque minimal → Pas de contrainte spécifique — filtres anti-spam, jeux vidéo, recommandations de contenu.
Les modèles à usage général (GPAI) — GPT-4, Claude, Gemini, Llama — font l'objet d'un régime spécifique. Les modèles systémiques (plus de 10²⁵ FLOPs) doivent réaliser des évaluations de risques avant mise sur le marché, des tests adversariaux obligatoires, et signaler les incidents graves à la Commission européenne.
Six risques à maîtriser pour un praticien NLP
| Risque | Texte applicable | Bonne pratique |
|---|---|---|
| Données personnelles dans les prompts | RGPD | Anonymisation et pseudonymisation systématiques en amont |
| Décision automatisée sans supervision | AI Act (risque élevé) | Human-in-the-loop obligatoire pour toute décision impactante |
| Mémorisation des données d'entraînement | RGPD + AI Act | Differential privacy, techniques de machine unlearning |
| Fournisseur LLM externe non audité | NIS2 / DORA | Due diligence contractuelle, SLA de sécurité, audit tiers |
| Biais discriminatoires dans les sorties | AI Act | Évaluation d'équité régulière, jeux de test représentatifs |
| Deepfakes et contenus synthétiques | AI Act | Marquage obligatoire des contenus générés par IA |
10. Slides du cours
Les 135 slides du support de cours original, regroupées par module.
Module 0 — Introduction générale
- 00 Mes premiers pas — Traitement Automatique des Langues avec des modèles génératifs
- 01 À qui s'adresse ce cours ?
- 02 Historique du NLP — 1950 à 2025
Module 1 — Introduction au TAL
- 03 Introduction — TAL, exemples, difficultés des langues
- 04 Traitement Automatique du Langage — définition
- 05 Pourquoi le NLP ? L'explosion des données textuelles
- 06 Applications du TAL / NLP
- 07 La complexité du langage écrit
Module 2 — L'écosystème LLM moderne
- 08 L'écosystème LLM moderne
- 09 La révolution 2022–2025
- 10 Les grandes familles de modèles LLM
- 11 Évaluer un LLM — les benchmarks de référence
Module 3 — Les données & les corpus
- 12 Les données & les corpus — cycle de vie
- 13 Pourquoi les données décident de tout — paradigme data-centric
- 14 Le cycle de vie de la donnée
- 15 La collecte — sources & méthodes
- 16 Constituer un corpus de qualité
- 17 Le filtrage & le nettoyage
- 18 Maîtriser la qualité des données — six dimensions
- 19 L'analyse exploratoire (EDA)
- 20 La transformation des données
- 21 L'annotation & l'augmentation
- 22 La gestion & le versioning — industrialiser
- 23 Du corpus au modèle — le lineage de données
Module 4 — Représentation des connaissances
- 24 Représentation des connaissances — introduction
- 25 La pyramide DIKW
- 26 Connaissance tacite vs explicite — modèle SECI
- 27 Pourquoi représenter la connaissance à l'ère des LLM ?
- 28 Le paradigme de l'IA neuro-symbolique
- 29 Fondements de la KR & compromis de Levesque
- 30 La pile du Web Sémantique — Layer Cake W3C
- 31 Les structures taxonomiques formelles
- 32 Sémantique de la subsomption (relation Is-A)
- 33 Anomalies et bonnes pratiques en ingénierie taxonomique
- 34 Normalisation des thésaurus — standard W3C SKOS
- 35 Taxonomie formelle vs SKOS
- 36 Les ontologies et les logiques de description
- 37 Découpage TBox / ABox / RBox
- 38 Qu'est-ce qu'une ontologie ? Définitions canoniques
- 39 Les composants d'une ontologie (OWL 2)
- 40 Axiomatique algébrique des propriétés en OWL 2
- 41 Logiques de description & architecture TBox/ABox/RBox
- 42 L'algorithme du tableau sémantique
- 43 Hypothèse de monde ouvert vs monde fermé (OWA/CWA)
- 44 Les graphes de connaissances — définition et modèle
- 45 Graphes RDF vs graphes de propriétés (LPG)
- 46 Le méta-niveau RDF — réification et RDF-star
- 47 Pipeline de construction industrielle de graphes
- 48 Complétion de graphes et plongements (KGE)
- 49 Algorithmique des structures de données pour le TAL
- 50 Points clés à retenir — représentation des connaissances
Module 5 — Les Transformers
- 51 L'avènement des Transformers
- 52 Approches à base de grammaires et de règles
- 53 Approches statistiques (HMM, CRF, SVM, LDA...)
- 54 Approches connexionnistes — les avantages des Transformers
- 55 « Attention is All You Need » — l'article fondateur
- 56 Architecture globale Transformer (encodeur + décodeur)
- 57 Le mécanisme d'attention (Q, K, V)
- 58 LayerNorm & FeedForward
- 59 Le tokenizer — fonctionnement et types
- 60 Illustration tokenizer (sous-mots, embeddings)
- 61 Illustration mécanisme d'attention
- 62 Illustration Transformer — encodeur vers décodeur
Module 6 — Prompt Engineering & fine-tuning
- 63 Le Prompt Engineering — introduction
- 64 Qu'est-ce que le Prompt Engineering ?
- 65 Stratégies de prompting (zero-shot, few-shot, CoT, Self-Consistency...)
- 66 Techniques avancées de prompting (RAG, ToT, Function Calling, sécurité)
- 67 Le fine-tuning moderne — RLHF, LoRA, instruction tuning
- 68 L'alignement des LLM — RLHF et DPO
- 69 Fine-tuning efficace — LoRA et QLoRA
Module 7 — Hallucinations & évaluation
- 70 Hallucinations — définition, types, causes, stratégies d'atténuation
- 71 Évaluer un LLM en production (BLEU, ROUGE, RAGAS, LLM-as-a-Judge, red teaming)
Module 8 — Extraction d'information
- 72 L'extraction d'information — morphosyntaxe, NER, syntaxe, mots-clés
- 73 L'étiquetage morphosyntaxique (POS tagging)
- 74 Morphologie — flexion, dérivation, composition
- 75 Analyse morphologique — stemming et lemmatisation
- 76 La morphosyntaxe — catégories fermées et ouvertes
- 77 Premier Transformer pour l'étiquetage morphosyntaxique
- 78 L'extraction d'entités nommées (NER)
- 79 Difficultés de la NER
- 80 Types d'entités nommées — hiérarchie de Sékine
- 81 Premier Transformer pour la NER (étiquetage BIO)
- 82 L'étiquetage syntaxique
- 83 Analyse syntaxique superficielle (chunking)
- 84 Analyse syntaxique (parsing)
- 85 Analyse des dépendances
- 86 Extraction de mots-clés
- 87 Premier Transformer pour l'extraction de mots-clés
Module 9 — Recherche d'information
- 88 Recherche d'information — bases relationnelles, graphes, index, vecteurs
- 89 Les bases de données relationnelles
- 90 Des Transformers au SQL
- 91 Base de données relationnelle & LLM
- 92 Les bases graphes
- 93 D'une base graphe au langage naturel
- 94 Base graphe & LLM — exemple Gaston LaGaffe
- 95 Les index inversés
- 96 L'apport des Transformers aux index inversés
- 97 Pipeline de recherche NLP avec Transformers
- 98 Les bases vectorielles
- 99 Vector store avec espaces latents texte
- 100 Vector store avec espaces latents image
- 101 Agrégation & fusion de résultats (RAG-Fusion)
- 102 Agrégateurs évolués — exemple LangChain
Module 10 — Applications avancées
- 103 Les systèmes de questions / réponses
- 104 Utilisation des Transformers pour les systèmes Q&A
- 105 Système Q&A avec les Transformers — exemple
- 106 Analyse de sentiments
- 107 Utilisation des Transformers pour l'analyse de sentiments
- 108 Analyse de sentiments — classification de token
- 109 Analyse de sentiments — classification du texte
- 110 Classification & Clustering
- 111 Classification documentaire avec Transformers (zeroshot, fine-tuning)
- 112 Regroupement de documents — clustering
- 113 Zero-shot classification — exemple Jordan basketteur
- 114 Clustering de documents avec les Transformers
- 115 Résumé automatique
- 116 Résumé automatique — approches extractive et générative
- 117 Résumé automatique avec les Transformers — stratégies greedy/sampling/beam search
- 118 Traduction automatique
- 119 Utilisation des Transformers pour la traduction
- 120 Traduction avec les Transformers — exemple
Module 11 — Agents & multimodalité
- 121 Les agents LLM — introduction
- 122 Architecture d'un agent LLM (ReAct, Function Calling, mémoire)
- 123 Frameworks pour construire des agents (LangChain, LlamaIndex, AutoGen, CrewAI, Smolagents, Haystack)
- 124 Les modèles multimodaux
- 125 Les Transformers multimodaux — au-delà du texte (CLIP, GPT-4V, LLaVA, Gemini)
- 126 Applications des modèles multimodaux
Module 12 — Réglementation & IA
- 127 Réglementation & IA — le cadre européen
- 128 Pourquoi réglementer l'IA ?
- 129 La cartographie réglementaire européenne
- 130 Le RGPD & les LLM — points de friction
- 131 La DPIA — évaluer l'impact avant de déployer
- 132 L'AI Act — une approche par les risques
- 133 L'AI Act & les modèles à usage général (GPAI)
- 134 Points de vigilance pour un praticien NLP
Les opinions exprimées dans cet article sont strictement personnelles et ne reflètent pas nécessairement celles de mon employeur. Les contenus sont fournis à titre informatif et ne constituent pas un conseil juridique.