Mes premiers pas en traitement automatique des… | Eric Blaudez

Sommaire

Introduction au TAL/NLP
Sept décennies d'histoire
L'écosystème LLM moderne
Les données et les corpus
Représentation des connaissances
L'architecture Transformer
Extraction d'information
Recherche d'information et agents
Réglementation et éthique
Slides du cours

1. Introduction au TAL/NLP

Les textes que nous produisons chaque jour — articles, emails, tweets, contrats, tickets de support — constituent l'une des ressources les plus riches et les plus sous-exploitées de notre époque. Le traitement automatique du langage (TAL, ou NLP en anglais) est la discipline qui cherche à donner aux machines la capacité de lire, comprendre et produire ce langage.

Concrètement, le NLP désigne l'ensemble des techniques permettant de traiter des contenus textuels sous toutes leurs formes : livres, blogs, forums, SMS, tweets... pour en extraire et en représenter l'information. L'objectif est de structurer ce qui est, par nature, non structuré.

L'explosion de la quantité de données textuelles nécessite des traitements automatiques pour valoriser les contenus — l'or des données — pour les comprendre et pour les chercher.

Les applications couvrent des domaines très variés :

Tâche	Description
Extraction d'information	Identifier et extraire des faits structurés depuis un texte brut
Classification documentaire	Ranger automatiquement des documents dans des catégories (supervisé ou non)
Recherche d'information	Trouver des documents pertinents à partir d'une requête
Question / Réponse	Trouver une réponse courte et précise en langage naturel
Résumé automatique	Condenser un document long en quelques phrases essentielles
Traduction automatique	Traduire un texte dans n'importe quelle langue cible
Analyse de sentiments	Déterminer si le propos d'un texte est positif, négatif ou neutre

Le langage écrit est cependant d'une complexité redoutable. Les alphabets diffèrent d'une langue à l'autre, les mots se composent (en allemand, Donaudampfschiffahrtsgesellschaft est un seul mot signifiant « Société de navigation à vapeur du Danube »), les règles grammaticales se contredisent, et les usages numériques — langage SMS, emoji, hashtags — ne cessent de déformer les normes établies. C'est précisément pour relever ces défis que le domaine a connu une révolution spectaculaire avec les modèles Transformers.

2. Sept décennies d'histoire

Le NLP n'est pas une discipline récente. Elle est née avec l'informatique elle-même, portée par le rêve de faire communiquer les hommes et les machines. Son évolution peut se lire comme une succession de paradigmes, chacun supplantant le précédent dès qu'une nouvelle génération d'algorithmes ou de puissance de calcul émerge.

1950–1960 — Les pionniers et les règles Premières expérimentations en linguistique computationnelle et en traduction automatique. Les systèmes sont entièrement fondés sur des règles codées manuellement par des linguistes.

1970–1990 — L'essor des statistiques L'approche statistique s'impose avec les modèles de langage probabilistes, les chaînes de Markov cachées (HMM) et les modèles de Markov conditionnels (CRF).

1990–2000 — Les premiers réseaux de neurones Les réseaux de neurones font leur apparition dans le domaine du NLP. Leurs performances sont encore limitées, mais la voie est tracée.

2010 — L'ère des word embeddings Word2Vec, GloVe et leurs descendants révolutionnent la représentation des mots : chaque terme devient un vecteur dense dans un espace continu, capturant sa sémantique et améliorant sensiblement les performances des modèles.

2017 — « Attention is All You Need » Google Brain publie l'article fondateur des Transformers. L'architecture d'attention permet de capturer les dépendances à long terme dans le texte avec une efficacité inégalée, et surpasse tous les modèles précédents.

2018–présent — L'ère des grands modèles de langage BERT, GPT-2, GPT-3, puis les LLM modernes (GPT-4, Claude, Gemini, Llama) repoussent toutes les frontières. Ces modèles pré-entraînés sur d'immenses corpus deviennent les nouvelles fondations du NLP industriel. Entraînés sur de vastes corpus de texte, ils peuvent être adaptés à des tâches spécifiques avec peu de données d'entraînement supplémentaires.

3. L'écosystème LLM moderne

La révolution 2022–2025

En moins de trois ans, le paysage des modèles de langage a été totalement reconfiguré. Quatre moments clés expliquent cette accélération sans précédent.

2022 — ChatGPT et le RLHF. OpenAI lance ChatGPT en propulsant les LLM dans le grand public grâce au Reinforcement Learning from Human Feedback (RLHF) — une technique d'alignement par préférence humaine qui transforme un modèle de prédiction de texte en assistant conversationnel.

2023 — La démocratisation. GPT-4, Claude 2 et Gemini arrivent côté propriétaire, tandis que l'open source explose avec Llama 2, Falcon 40B ou Mistral 7B, atteignant des performances remarquables avec dix fois moins de paramètres.

2024 — Efficacité et contexte long. Gemini 1.5 Pro traite jusqu'à un million de tokens. L'accent passe de la puissance brute à l'efficacité, la sécurité et le contrôle.

2025 — Raisonnement et agents. Les modèles o3 (OpenAI) et DeepSeek R1 « pensent » avant de répondre (Chain-of-Thought interne). Les agents autonomes multi-tâches et les modèles multimodaux natifs deviennent grand public.

Les grandes familles de modèles

L'écosystème se divise entre modèles propriétaires (accès via API, opacité) et modèles open-source (poids disponibles, customisables) :

Modèle	Organisation	Caractéristique clé
GPT-4o	OpenAI	Multimodal (texte + image + audio), 128K tokens de contexte
Claude 4	Anthropic	Raisonnement complexe, documents longs (200K tokens), sécurité
Gemini 2.0	Google DeepMind	Nativement multimodal, 1 million de tokens de contexte
Llama 3.3 70B	Meta	Open-source de référence, déployable localement
Mistral Large	Mistral AI	Modèle européen open-weight, Mixture-of-Experts
DeepSeek R1	DeepSeek	Raisonnement open-source, égale o1 sur maths et code

Les benchmarks de référence

Pour mesurer objectivement ces modèles, plusieurs benchmarks s'imposent : MMLU (57 disciplines académiques, GPT-4 dépasse 86 %), HumanEval (génération de code), TruthfulQA (tendance aux hallucinations), et Chatbot Arena où des humains comparent deux modèles en aveugle. Attention cependant : un modèle peut être involontairement entraîné sur les données de test (data contamination), faussant son score réel.

4. Les données et les corpus

Pourquoi les données décident de tout

Un modèle n'est jamais meilleur que le corpus qui l'a nourri. Cette vérité, souvent résumée par le principe Garbage In, Garbage Out, est pourtant sous-estimée dans les projets où l'attention se concentre sur les hyperparamètres plutôt que sur la matière première.

Dans un projet TAL réel, 60 à 80 % du temps et des ressources est consacré à la collecte, au nettoyage et à l'annotation — pas à la modélisation.

Les travaux de DeepMind (rapport Chinchilla, 2022) ont montré qu'à budget de calcul fixé, l'optimum se situe autour de 20 tokens de données par paramètre. Les corpus RefinedWeb et FineWeb l'ont illustré : moins de volume mais plus de signal utile améliore les performances plus que l'ajout de données brutes.

Le cycle de vie de la donnée

01 — Collecte Web ouvert à grande échelle (Common Crawl, OSCAR, FineWeb), corpus curés (Wikipédia, presse), données propriétaires (tickets clients, contrats), ou génération synthétique par LLM pour les cas rares ou sensibles. La licence de chaque source conditionne son usage en entraînement — l'AI Act impose aux modèles GPAI un résumé public des données d'entraînement.

02 — Filtrage et nettoyage Normalisation d'encodage (UTF-8, NFC), suppression du boilerplate HTML, filtrage par langue (fastText/langid), heuristiques de qualité (longueur, ratio ponctuation, perplexité KenLM), déduplication exacte (SHA) et quasi-exacte (MinHash+LSH), retrait des contenus toxiques et des données personnelles (obligation RGPD). Sur un corpus web typique, on passe de 100 % brut à environ 30 % exploitable.

03 — Analyse exploratoire (EDA) Statistiques descriptives, profilage du vocabulaire (loi de Zipf), détection d'anomalies, visualisation par embeddings réduits (PCA/t-SNE/UMAP). L'EDA conditionne tous les choix en aval : longueur de séquence maximale, stratégie d'équilibrage, découpage en chunks.

04 — Transformation Normalisation textuelle, tokenisation en sous-mots (BPE, WordPiece, Unigram LM), vectorisation en embeddings contextuels, structuration du non-structuré vers une représentation exploitable par le modèle.

05 — Annotation Création de la vérité-terrain supervisée : annotation manuelle avec double vérification (accord inter-annotateurs mesuré par le kappa de Cohen), apprentissage actif pour réduire les coûts, supervision faible via Snorkel, pré-annotation par LLM avec validation humaine. Outils : Label Studio, Prodigy, doccano, Argilla.

06 — Versioning et gouvernance DVC, Git-LFS, lakeFS pour répondre à la question clé : quel corpus exact a produit ce modèle ? Traçabilité avec DataHub ou Amundsen, orchestration DataOps avec Airflow, Dagster, MLflow.

5. Représentation des connaissances

De la donnée à la sagesse

La pyramide DIKW formalise la montée en abstraction : depuis la donnée brute (un chiffre, un nom), vers l'information contextualisée, puis la connaissance raisonnée (permettant la déduction logique), jusqu'à la sagesse (le jugement critique). Les ontologies et les graphes de connaissances formalisent ce niveau de connaissance pour les machines.

Pourquoi le symbolique reste indispensable à l'ère des LLM

Les réseaux de neurones ne peuvent pas, seuls, garantir :

L'ancrage factuel — relier les vecteurs probabilistes à des faits certifiés réduit drastiquement les hallucinations.
L'explicabilité — une ontologie offre une trace d'inférence logique auditable étape par étape, contrairement aux boîtes noires neuronales.
L'édition de connaissances — modifier un fait erroné dans un graphe prend une milliseconde avec une cohérence absolue, impossible dans les poids d'un LLM.
L'interopérabilité — partager un vocabulaire commun et des contraintes métier immuables entre systèmes hétérogènes.

Ontologies et logiques de description

Les ontologies formalisées en OWL 2 s'articulent autour du découpage TBox / ABox / RBox :

La TBox (Terminological Box) définit le schéma général — Humoriste ⊑ Artiste.
L'ABox (Assertional Box) contient les faits sur les individus réels — Humoriste(Gaston_LaGaffe).
La RBox (Role Box) décrit les propriétés des relations (transitivité, symétrie, inverse).

Les raisonneurs sémantiques (HermiT, Pellet, FaCT++) exploitent l'algorithme du Tableau pour inférer automatiquement de nouveaux liens logiques et détecter les contradictions.

Une divergence fondamentale sépare la KR sémantique des bases de données classiques : l'hypothèse de monde ouvert (OWA — OWL/RDF) suppose que si un fait n'est pas présent, il est inconnu ; l'hypothèse de monde fermé (CWA — SQL/SHACL) suppose qu'il est faux. Cette distinction est cruciale pour éviter des erreurs de modélisation.

Graphes de connaissances

Les graphes de connaissances (Knowledge Graphs) — popularisés par Google en 2012 avec le slogan « things, not strings » — concrétisent ces formalismes à l'échelle industrielle. Wikidata, DBpedia et YAGO en sont les exemples emblématiques ouverts.

Deux modèles techniques s'affrontent : les graphes RDF (triplets standardisés W3C, requêtes SPARQL, sémantique forte) et les graphes de propriétés LPG (Neo4j, Cypher, plus expressifs localement). RDF-star résout la limitation native de RDF à représenter des métadonnées sur les faits eux-mêmes.

L'architecture neuro-symbolique, qui combine la flexibilité connexionniste des LLM avec la rigueur symbolique des ontologies, est aujourd'hui considérée comme l'architecture d'avenir des systèmes RAG augmentés par graphes (KG-augmented LLMs).

6. L'architecture Transformer

La percée de 2017

En 2017, Ashish Vaswani et son équipe chez Google Brain publient « Attention is All You Need ». L'idée est radicale : abandonner les réseaux récurrents (RNN/LSTM), leur traitement séquentiel et leur difficulté à capturer les dépendances longue distance, pour une architecture entièrement fondée sur l'attention.

Les Transformers présentent huit avantages décisifs par rapport aux approches précédentes : capture des dépendances à long terme, attention multi-têtes, adaptabilité à différentes tâches, apprentissage auto-supervisé, fine-tuning sur des tâches spécifiques, réduction du besoin d'ingénierie des caractéristiques, état de l'art sur de nombreuses tâches, et généralisation à des langues et domaines divers.

Architecture globale

L'architecture Transformer se compose de deux blocs principaux :

L'encodeur traite la séquence d'entrée et produit une représentation cachée. Chaque bloc d'encodeur contient : un mécanisme d'attention multi-têtes, une couche feedforward, et des connexions résiduelles avec normalisation LayerNorm.

Le décodeur prend la représentation cachée et génère la sortie token par token. Il ajoute un mécanisme d'auto-attention masquée (pour ne pas « voir » les tokens futurs) et une attention croisée vers la sortie de l'encodeur.

L'encodage positionnel est ajouté aux embeddings pour que le modèle comprenne l'ordre des tokens dans la séquence.

Le mécanisme d'attention

Au cœur du Transformer se trouve le mécanisme d'attention. Pour chaque token, on calcule trois vecteurs :

Q (Query) — ce que ce token cherche
K (Key) — ce que chaque token offre
V (Value) — l'information que chaque token porte

Le score d'attention entre deux positions est la similarité entre Q et K. Les valeurs V sont ensuite combinées en proportion de ces scores, permettant au modèle de se concentrer sur les parties les plus pertinentes de la séquence. L'attention multi-têtes répète ce processus en parallèle avec différentes projections, capturant simultanément plusieurs types de relations.

Tokenisation

La tokenisation en sous-mots (BPE, WordPiece, Unigram LM) est la brique fondamentale de tout pipeline Transformer moderne. Un vocabulaire limité — 30 000 sous-mots pour BERT-small — suffit à couvrir l'ensemble d'une langue. Chaque sous-mot est associé à un vecteur dense (embedding) qui forme la représentation numérique du texte.

Alignement et fine-tuning efficace

RLHF (Reinforcement Learning from Human Feedback) : après un premier fine-tuning supervisé (SFT), des annotateurs classent les réponses par préférence. Un reward model est entraîné sur ces comparaisons, et le LLM est optimisé avec l'algorithme PPO pour maximiser ce score. C'est la technique qui a créé ChatGPT.

DPO (Direct Preference Optimization, 2023) : alternative plus simple au RLHF, apprenantdirectement depuis des paires (réponse préférée / rejetée) sans reward model explicite.

LoRA (Low-Rank Adaptation, 2022) : au lieu de modifier tous les poids, on injecte de petites matrices de faible rang dans les couches d'attention. Seulement 0,1 à 1 % des paramètres sont entraînés, pour un coût réduit de 95 %. QLoRA y ajoute une quantification 4-bit pour fine-tuner Llama 3 70B sur un seul GPU de 48 Go.

7. Extraction d'information

Morphosyntaxe (POS tagging)

Chaque token reçoit une étiquette grammaticale (nom, verbe, déterminant...) et son lemme (forme canonique). Cette étape permet de calculer des stopwords contextuels et d'alimenter les traitements suivants. Les Transformers abordent ce problème comme une classification séquentielle : pour chaque token, le modèle prédit l'étiquette la plus probable parmi un ensemble fermé (ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, VERB...).

La lemmatisation retrouve la forme canonique (chante → chanter), plus précise que la racinisation (stemming) qui coupe mécaniquement les terminaisons. La morphosyntaxe introduit une ambiguïté fondamentale : « La belle ferme le voile » contient trois lectures possibles selon les étiquettes attribuées.

Extraction d'entités nommées (NER)

L'objectif est de repérer et de classer les entités dans le texte : personnes (PER), lieux (LOC), organisations (ORG), et bien d'autres selon la hiérarchie de Sékine. Le schéma d'étiquetage BIO (Beginning-Inside-Outside) délimite précisément les frontières de chaque entité.

Les difficultés sont nombreuses : variabilité orthographique et acronymes, ambiguïtés contextuelles (Paris : ville ou prénom ?), entités nouvelles absentes des données d'entraînement, entités composites multi-mots. Le modèle Transformer aborde la NER exactement comme le POS tagging — classification token par token — seules les étiquettes changent.

Analyse syntaxique

Le chunking (analyse superficielle) identifie les syntagmes — nominal (SN), verbal (SV), adjectival — sans construire un arbre complet.

L'analyse en dépendances construit un arbre dont les nœuds sont les mots et les arêtes sont des relations typées (sujet nominal nsubj, objet obj, déterminant det...), révélant la structure profonde de la phrase : Pierre dort le jour → dort est la racine, Pierre son sujet, jour son objet, le son déterminant.

Extraction de mots-clés

Même principe que la NER — classification token par token avec les étiquettes KEY, B-KEY (début de mot-clé) et I-KEY (intérieur). Les Transformers identifient les termes qui résument et catégorisent le contenu avec plus de précision que les approches purement statistiques (TF-IDF).

8. Recherche d'information et agents

Les paradigmes de recherche

Bases relationnelles et Text-to-SQL. Les Transformers permettent de traduire une question en langage naturel en requête SQL — « Quelles sont toutes les personnes vivant à Ville Joyeuse ? » devient un SELECT ... WHERE. Cette convergence ouvre la voie à des interfaces plus naturelles sur des bases de données structurées.

Index inversés. La structure fondatrice des moteurs de recherche : pour chaque terme, la liste triée des documents qui le contiennent. Les Transformers enrichissent ce pipeline en amont (expansion sémantique des requêtes, gestion des synonymes, correction orthographique) et en aval (reranking contextuel des résultats).

Bases vectorielles. Les embeddings issus des Transformers permettent une recherche par similarité sémantique dans un espace vectoriel continu. Les index HNSW (Hierarchical Navigable Small World) rendent cette recherche approximative mais ultra-rapide sur des millions de vecteurs. FAISS, Chroma et leurs homologues sont devenus les briques fondamentales des architectures RAG.

RAG (Retrieval-Augmented Generation). L'architecture dominante pour réduire les hallucinations : le LLM reçoit dans son contexte les documents les plus pertinents récupérés par la base vectorielle, et génère une réponse ancrée dans des sources vérifiées. Le pipeline RAG-Fusion étend ce paradigme en générant plusieurs reformulations de la requête et en fusionnant les résultats.

Les agents LLM

Les agents vont plus loin que la simple génération : le modèle joue le rôle d'un cerveau qui perçoit un contexte, raisonne sur un objectif, planifie les étapes et exécute des actions via des outils externes.

Le pattern ReAct (Reason + Act) est la boucle fondamentale : Thought (raisonnement interne) → Action (appel d'outil) → Observation (résultat) → Thought... jusqu'à la réponse finale.

Les composants clés d'un agent : le LLM (raisonnement et planification), les outils (recherche web, exécution de code, APIs, bases de données), la mémoire court-terme (historique de conversation) et la mémoire long-terme (base vectorielle).

Les frameworks principaux de l'écosystème :

LangChain — le plus populaire, agents ReAct et Function Calling, écosystème très riche
LlamaIndex — spécialisé dans les pipelines RAG sur corpus documentaires
AutoGen (Microsoft) — multi-agents conversationnels avec rôles spécialisés
CrewAI — orchestration d'équipes d'agents avec objectifs définis
Smolagents (HuggingFace) — agents légers open-source, écriture et exécution de code Python
Haystack — pipelines RAG hybrides en production

Systèmes de questions/réponses et autres tâches

Les systèmes Q&A exploitent le mécanisme d'attention pour identifier, dans un texte contexte, le span de réponse le plus probable (vecteurs de probabilité de début et de fin de réponse).

L'analyse de sentiments peut se faire au niveau du token (classification séquentielle) ou du texte entier (un vecteur de logits pour l'ensemble du document), selon la granularité souhaitée.

Le résumé automatique combine approche extractive (sélection des passages les plus pertinents via l'attention) et générative (production d'un texte nouveau avec un modèle encodeur-décodeur). La génération se fait mot par mot selon trois stratégies : greedy (probabilité maximum), sampling (loi multinomiale) ou beam search (conservation des n meilleures séquences partielles).

Les modèles multimodaux (CLIP, GPT-4V, LLaVA, Gemini 2.0) traitent simultanément texte, images, audio et vidéo dans un espace de représentation partagé. Ils ouvrent des cas d'usage inédits : OCR avancé sur factures, recherche image par texte, agents visuels capables de « voir » un écran, accessibilité pour malvoyants, analyse d'imagerie médicale.

9. Réglementation et éthique

Le cadre européen

Les LLM sont désormais déployés dans des contextes critiques — santé, justice, finance, ressources humaines — ce qui soulève des questions fondamentales : qui est responsable d'une décision erronée automatisée ? Comment protéger les données personnelles à grande échelle ? Quels recours pour les personnes affectées ?

L'Union Européenne a construit un cadre réglementaire multicouche :

Texte	Acronyme	Objet	En vigueur
General Data Protection Regulation	RGPD	Protection des données personnelles	2018
Network and Information Security 2	NIS2	Cybersécurité des entités critiques	2024
Digital Operational Resilience Act	DORA	Résilience numérique du secteur financier	2025
Cyber Resilience Act	CRA	Sécurité des produits connectés	2025
EU AI Act	AI Act	Régulation des systèmes d'IA	2024–2027

Le RGPD et les LLM

Le RGPD s'applique dès lors qu'un traitement concerne des données personnelles — et les LLM en consomment massivement à chaque étape. Trois points de friction principaux :

L'entraînement — les corpus peuvent contenir des données personnelles collectées sans base légale.
L'inférence — les prompts soumis par les utilisateurs constituent fréquemment des données personnelles.
La mémorisation — les LLM peuvent restituer des données sensibles mémorisées lors de l'entraînement (memorization attacks). Le machine unlearning reste un problème ouvert.

L'AI Act : une approche par les risques

L'AI Act (Règlement 2024/1689) classe les systèmes d'IA en quatre niveaux :

Risque inacceptable → Interdit — notation sociale généralisée, manipulation subliminale, reconnaissance faciale en temps réel dans les espaces publics.
Risque élevé → Obligations strictes — recrutement, crédit, justice, éducation → tests de robustesse, logs, supervision humaine obligatoire, marquage CE.
Risque limité → Transparence obligatoire — chatbots → l'utilisateur doit être informé qu'il interagit avec une IA.
Risque minimal → Pas de contrainte spécifique — filtres anti-spam, jeux vidéo, recommandations de contenu.

Les modèles à usage général (GPAI) — GPT-4, Claude, Gemini, Llama — font l'objet d'un régime spécifique. Les modèles systémiques (plus de 10²⁵ FLOPs) doivent réaliser des évaluations de risques avant mise sur le marché, des tests adversariaux obligatoires, et signaler les incidents graves à la Commission européenne.

Six risques à maîtriser pour un praticien NLP

Risque	Texte applicable	Bonne pratique
Données personnelles dans les prompts	RGPD	Anonymisation et pseudonymisation systématiques en amont
Décision automatisée sans supervision	AI Act (risque élevé)	Human-in-the-loop obligatoire pour toute décision impactante
Mémorisation des données d'entraînement	RGPD + AI Act	Differential privacy, techniques de machine unlearning
Fournisseur LLM externe non audité	NIS2 / DORA	Due diligence contractuelle, SLA de sécurité, audit tiers
Biais discriminatoires dans les sorties	AI Act	Évaluation d'équité régulière, jeux de test représentatifs
Deepfakes et contenus synthétiques	AI Act	Marquage obligatoire des contenus générés par IA

10. Slides du cours

Les 135 slides du support de cours original, regroupées par module.

Module 0 — Introduction générale

00 Mes premiers pas — Traitement Automatique des Langues avec des modèles génératifs
01 À qui s'adresse ce cours ?
02 Historique du NLP — 1950 à 2025

Module 1 — Introduction au TAL

03 Introduction — TAL, exemples, difficultés des langues
04 Traitement Automatique du Langage — définition
05 Pourquoi le NLP ? L'explosion des données textuelles
06 Applications du TAL / NLP
07 La complexité du langage écrit

Module 2 — L'écosystème LLM moderne

08 L'écosystème LLM moderne
09 La révolution 2022–2025
10 Les grandes familles de modèles LLM
11 Évaluer un LLM — les benchmarks de référence

Module 3 — Les données & les corpus

12 Les données & les corpus — cycle de vie
13 Pourquoi les données décident de tout — paradigme data-centric
14 Le cycle de vie de la donnée
15 La collecte — sources & méthodes
16 Constituer un corpus de qualité
17 Le filtrage & le nettoyage
18 Maîtriser la qualité des données — six dimensions
19 L'analyse exploratoire (EDA)
20 La transformation des données
21 L'annotation & l'augmentation
22 La gestion & le versioning — industrialiser
23 Du corpus au modèle — le lineage de données

Module 4 — Représentation des connaissances

24 Représentation des connaissances — introduction
25 La pyramide DIKW
26 Connaissance tacite vs explicite — modèle SECI
27 Pourquoi représenter la connaissance à l'ère des LLM ?
28 Le paradigme de l'IA neuro-symbolique
29 Fondements de la KR & compromis de Levesque
30 La pile du Web Sémantique — Layer Cake W3C
31 Les structures taxonomiques formelles
32 Sémantique de la subsomption (relation Is-A)
33 Anomalies et bonnes pratiques en ingénierie taxonomique
34 Normalisation des thésaurus — standard W3C SKOS
35 Taxonomie formelle vs SKOS
36 Les ontologies et les logiques de description
37 Découpage TBox / ABox / RBox
38 Qu'est-ce qu'une ontologie ? Définitions canoniques
39 Les composants d'une ontologie (OWL 2)
40 Axiomatique algébrique des propriétés en OWL 2
41 Logiques de description & architecture TBox/ABox/RBox
42 L'algorithme du tableau sémantique
43 Hypothèse de monde ouvert vs monde fermé (OWA/CWA)
44 Les graphes de connaissances — définition et modèle
45 Graphes RDF vs graphes de propriétés (LPG)
46 Le méta-niveau RDF — réification et RDF-star
47 Pipeline de construction industrielle de graphes
48 Complétion de graphes et plongements (KGE)
49 Algorithmique des structures de données pour le TAL
50 Points clés à retenir — représentation des connaissances

Module 5 — Les Transformers

51 L'avènement des Transformers
52 Approches à base de grammaires et de règles
53 Approches statistiques (HMM, CRF, SVM, LDA...)
54 Approches connexionnistes — les avantages des Transformers
55 « Attention is All You Need » — l'article fondateur
56 Architecture globale Transformer (encodeur + décodeur)
57 Le mécanisme d'attention (Q, K, V)
58 LayerNorm & FeedForward
59 Le tokenizer — fonctionnement et types
60 Illustration tokenizer (sous-mots, embeddings)
61 Illustration mécanisme d'attention
62 Illustration Transformer — encodeur vers décodeur

Module 6 — Prompt Engineering & fine-tuning

63 Le Prompt Engineering — introduction
64 Qu'est-ce que le Prompt Engineering ?
65 Stratégies de prompting (zero-shot, few-shot, CoT, Self-Consistency...)
66 Techniques avancées de prompting (RAG, ToT, Function Calling, sécurité)
67 Le fine-tuning moderne — RLHF, LoRA, instruction tuning
68 L'alignement des LLM — RLHF et DPO
69 Fine-tuning efficace — LoRA et QLoRA

Module 7 — Hallucinations & évaluation

70 Hallucinations — définition, types, causes, stratégies d'atténuation
71 Évaluer un LLM en production (BLEU, ROUGE, RAGAS, LLM-as-a-Judge, red teaming)

Module 8 — Extraction d'information

72 L'extraction d'information — morphosyntaxe, NER, syntaxe, mots-clés
73 L'étiquetage morphosyntaxique (POS tagging)
74 Morphologie — flexion, dérivation, composition
75 Analyse morphologique — stemming et lemmatisation
76 La morphosyntaxe — catégories fermées et ouvertes
77 Premier Transformer pour l'étiquetage morphosyntaxique
78 L'extraction d'entités nommées (NER)
79 Difficultés de la NER
80 Types d'entités nommées — hiérarchie de Sékine
81 Premier Transformer pour la NER (étiquetage BIO)
82 L'étiquetage syntaxique
83 Analyse syntaxique superficielle (chunking)
84 Analyse syntaxique (parsing)
85 Analyse des dépendances
86 Extraction de mots-clés
87 Premier Transformer pour l'extraction de mots-clés

Module 9 — Recherche d'information

88 Recherche d'information — bases relationnelles, graphes, index, vecteurs
89 Les bases de données relationnelles
90 Des Transformers au SQL
91 Base de données relationnelle & LLM
92 Les bases graphes
93 D'une base graphe au langage naturel
94 Base graphe & LLM — exemple Gaston LaGaffe
95 Les index inversés
96 L'apport des Transformers aux index inversés
97 Pipeline de recherche NLP avec Transformers
98 Les bases vectorielles
99 Vector store avec espaces latents texte
100 Vector store avec espaces latents image
101 Agrégation & fusion de résultats (RAG-Fusion)
102 Agrégateurs évolués — exemple LangChain

Module 10 — Applications avancées

103 Les systèmes de questions / réponses
104 Utilisation des Transformers pour les systèmes Q&A
105 Système Q&A avec les Transformers — exemple
106 Analyse de sentiments
107 Utilisation des Transformers pour l'analyse de sentiments
108 Analyse de sentiments — classification de token
109 Analyse de sentiments — classification du texte
110 Classification & Clustering
111 Classification documentaire avec Transformers (zeroshot, fine-tuning)
112 Regroupement de documents — clustering
113 Zero-shot classification — exemple Jordan basketteur
114 Clustering de documents avec les Transformers
115 Résumé automatique
116 Résumé automatique — approches extractive et générative
117 Résumé automatique avec les Transformers — stratégies greedy/sampling/beam search
118 Traduction automatique
119 Utilisation des Transformers pour la traduction
120 Traduction avec les Transformers — exemple

Module 11 — Agents & multimodalité

121 Les agents LLM — introduction
122 Architecture d'un agent LLM (ReAct, Function Calling, mémoire)
123 Frameworks pour construire des agents (LangChain, LlamaIndex, AutoGen, CrewAI, Smolagents, Haystack)
124 Les modèles multimodaux
125 Les Transformers multimodaux — au-delà du texte (CLIP, GPT-4V, LLaVA, Gemini)
126 Applications des modèles multimodaux

Module 12 — Réglementation & IA

127 Réglementation & IA — le cadre européen
128 Pourquoi réglementer l'IA ?
129 La cartographie réglementaire européenne
130 Le RGPD & les LLM — points de friction
131 La DPIA — évaluer l'impact avant de déployer
132 L'AI Act — une approche par les risques
133 L'AI Act & les modèles à usage général (GPAI)
134 Points de vigilance pour un praticien NLP

resume

Les opinions exprimées dans cet article sont strictement personnelles et ne reflètent pas nécessairement celles de mon employeur. Les contenus sont fournis à titre informatif et ne constituent pas un conseil juridique.