Le lissage épistémique
À une époque les puissants ne se mélangeaient pas et on se retrouve aujourd'hui avec des galeries de tableaux de rois ressemblant aux extra-terrestres d'une mauvaise série B. Aujourd'hui, les LLMs s'effondrent sous le poids de la récursion : ils s'entraînent sur leurs propres déchets. Le résultat est double : d'un côté une lobotomie par alignement (RLHF) qui rend le propos tiède et consensuel ; de l'autre, une perte de variance statistique irréversible (Model Collapse) due à l'ingestion de données synthétiques. On ne crée plus de l'intelligence, on lisse la courbe de Gauss vers le néant.
L'originalité et la variance vont devenir des commodités rares, donc onéreuses. Nous sombrons dans la Gen-HAI (Generative-Habsbourg-AI). Le vrai pouvoir ne sera plus d'accéder au modèle le plus gros, mais de posséder un pipeline de curation capable d'isoler la donnée organique du bruit synthétique. Trouver de l'information "humaine" (le Ground Truth) va devenir le seul alpha du marché, maintenant que l'empreinte statistique d'un texte généré est indiscernable du réel.
Éviter cette dégénérescence est un défi d'ingénierie brutal. S'offrir des modèles entraînés sur des snapshots du web pré-2023 (via Wayback Machine) est une solution naïve : ces vieilles données manquent de la structure nécessaire au raisonnement complexe. Le véritable challenge est l'alignement sélectif : comment conserver les "aspérités" nécessaires à la créativité et à la logique, sans se retrouver avec un modèle instable qui hallucine ou jure comme un charretier ?
