Quand les agents IA lisent-ils vraiment llms.txt ?

**La plupart des modèles actuels le lisent à la volée**, quand un utilisateur colle votre URL ou qu'un agent (ChatGPT Search, Perplexity, Claude avec browsing) explore votre domaine. **Il n'est pas scrapé en continu** comme Googlebot scrape robots.txt. Le support grandit tout au long de 2025 - Anthropic, Mistral, certaines parties de la chaîne d'outillage Cursor et Continue.dev cherchent explicitement `/llms.txt`. Plus de grands sites le livreront, plus il sera utilisé fréquemment.

Quelle est la différence entre llms.txt et llms-full.txt ?

**`llms.txt` est une carte** - une liste concise de liens groupés sous des sections H2. L'agent obtient la structure et décide quoi récupérer ensuite. **`llms-full.txt` est un dump de contenu** - chaque page significative concaténée en un gros fichier Markdown. Génial pour les petits sites de docs (où tout rentre dans la fenêtre de contexte d'un modèle). Les grands sites restent sur `llms.txt` et servent le contenu complet séparément (souvent une version `.md` à côté de chaque `.html`).

En quoi llms.txt est différent de robots.txt et sitemap.xml ?

**`robots.txt` dit aux crawlers ce qu'il NE FAUT PAS indexer.** **`sitemap.xml` liste CHAQUE URL** pour indexation - XML, brut, sans contexte. **`llms.txt` se place entre les deux** : une carte curée et hiérarchique des pages les plus importantes, en Markdown, avec des descriptions en langage naturel. Les trois fichiers ne sont pas en conflit, chacun s'adresse à un public différent. Le move pro : garder les trois.

Quelles sont les exigences de format ?

**Requis** : un `# H1` tout en haut du fichier (le titre de votre site). **Optionnel mais recommandé** : un blockquote (`> résumé court...`) juste sous le H1 décrivant ce qu'est le site. **Corps** : sections `## H2` (par exemple "Docs", "API", "Blog"), chacune contenant des bullets façonnés comme `- [texte](url): description optionnelle`. Les liens **peuvent être relatifs** (`/docs/getting-started`) ou absolus. Le fichier **devrait être dans la langue principale de votre site** - les agents IA ne devinent pas la locale.

Comment savoir si mon site a besoin de llms.txt ?

**Si vous vous êtes déjà demandé pourquoi ChatGPT décrit votre produit incorrectement** - vous en avez besoin. **Si vous livrez des docs techniques** (référence API, guides SDK, manuels de framework) et voulez que l'IA génère des exemples ancrés dans vos vrais endpoints - fortement oui. **Si vous faites tourner du e-commerce et voulez que l'IA cite votre politique de retour ou les specs produit correctement** - ça vaut le coup. **Sinon** : optionnel, mais 100 lignes de Markdown non invasives c'est un investissement minuscule.

Comment le validateur vérifie-t-il la santé des liens ?

Après avoir parsé le fichier on prend les **20 premiers liens** à travers toutes les sections H2, on résout les URLs relatives contre l'origine de votre domaine, et on les **HEAD en parallèle** avec un timeout de 4 secondes. Si le serveur renvoie 405 (pas de HEAD) ou 403 (le CDN bloque les bots), on retombe sur **GET avec `Range: bytes=0-0`** - ça télécharge au plus un octet. Vous voyez le statut (200 / 404 / timeout) sur le badge à côté de chaque bullet.

Le validateur stocke-t-il mon domaine ou le contenu du fichier ?

**Non**. Tout le flow est **stateless** : on récupère le fichier, on le parse en mémoire, on renvoie le résultat, et on oublie. La seule chose qui vit entre les requêtes est un **compteur éphémère par IP pour la limite de 30 par heure**. Un redémarrage du process Node vide même ça. Pas de base, pas de logs disque, rien de persisté.

Le validateur bloque-t-il les IPs privées ?

**Oui - dur, au niveau du handler de route**. On refuse : `localhost`, `*.localhost`, `*.local`, `*.internal`, `127.x`, `10.x`, `192.168.x`, `172.16-31.x`, `169.254.x`, plages IPv6 `fc::` et `fe80::`. C'est la **protection SSRF** - notre serveur ne peut pas être utilisé pour sonder votre réseau interne. Pour le développement local utilisez ngrok ou cloudflared.

Montrez-moi un exemple minimal de llms.txt valide.

Le fichier le plus court qui valide proprement : ``` # Mon entreprise > On construit des logiciels de gestion de tâches pour les équipes d'ingénierie. ## Documentation - [Pour commencer](/docs/getting-started): configuré en 5 minutes - [Référence API](/docs/api): référence REST et GraphQL complète ## Politiques - [Politique de confidentialité](/privacy) - [Conditions d'utilisation](/terms) ``` Ça suffit pour que ChatGPT et Claude **citent vos docs correctement**. Tout le reste est décoration.

Validateur llms.txt - gratuit

Ce que fait un validateur llms.txt

Ce validateur récupère le fichier `/llms.txt` (et optionnellement `/llms-full.txt`) depuis votre domaine, le parse comme Markdown selon la spec llmstxt.org, et vous montre exactement ce qu'un agent IA verra : titre H1, résumé en blockquote, sections H2 avec leurs liens bullets.

`llms.txt` est essentiellement un plan de site écrit pour les modèles de langage, similaire à la manière dont `robots.txt` fonctionne pour les crawlers de recherche. ChatGPT, Claude, Perplexity et d'autres outils IA l'utilisent pour comprendre la structure d'un site sans broyer le HTML complet. Un bon `llms.txt` améliore mesurablement la qualité des réponses IA sur votre produit.

Le validateur fait trois jobs : il montre le fichier brut, il le parse en arbre (titre, résumé, sections, liens), et il HEAD-probe les 20 premiers liens (avec un fallback GET-range) pour que vous voyiez instantanément si une référence renvoie un 404.

Mode d'emploi

Entrez un domaine (par exemple `exemple.fr`) ou une URL complète se terminant par `/llms.txt`. On préfixe automatiquement `https://` s'il manque.
Choisissez un fichier : `llms.txt` (navigation concise), `llms-full.txt` (contenu complet en un fichier) ou Les deux - on récupère les deux pour que vous puissiez les diff.
Cliquez sur "Vérifier". On récupère avec un timeout de 8 secondes, on parse le Markdown, et on probe les liens.
Le panneau Arbre parsé montre le titre, le résumé, et les sections H2 avec leurs bullets. Chaque lien reçoit un badge de santé coloré (200 / 3xx / 4xx / timeout).
Le panneau Issues flague les pièces manquantes : pas de H1, pas de sections, bullet malformé, Content-Type suspect, erreur HTTP. Chaque issue porte un numéro de ligne.
La vue brute dans une section dépliable montre exactement ce qu'on a reçu du serveur - pratique pour diff contre la sortie de votre CMS.
Corrigez, redéployez, cliquez sur "Vérifier" à nouveau. Le validateur ne cache jamais ; chaque requête récupère frais.

Quand cet outil est utile

Six situations où le validateur `llms.txt` vous épargne une session de débogage :

Premier déploiement de `llms.txt`. Vous venez d'en livrer un et voulez confirmer que le format est correct avant que les agents IA ne le découvrent. Le validateur attrape les H1 manquants, bullets malformés, et URLs relatives que certains parsers rejettent.
Conséquence de migration CMS. Votre liste de liens dans `llms.txt` peut maintenant pointer vers des pages mortes. La sonde de santé en 4 secondes vous montre chaque bullet qui 404.
Livrable d'audit AI-SEO. Un client veut un rapport "à quoi ressemble votre site pour ChatGPT et Claude" - la sortie du validateur est un point de départ propre, copier-collable.
Diff de variantes : le mode "Les deux" pulle `llms.txt` et `llms-full.txt` en parallèle pour que vous puissiez confirmer qu'ils ne se sont pas désynchronisés (sections différentes, dates périmées, pages manquantes).
Votre générateur d'étape de build a commencé à livrer un fichier cassé. Le parser d'Anthropic le refuse mais le message d'erreur est opaque. Le validateur vous pointe vers la ligne exacte.
Recherche concurrentielle. Mettez le domaine d'un concurrent, étudiez sa structure `llms.txt`, apprenez ce qu'il pense valoir la peine de surfacer.

Liés : validateur robots.txt + sitemap.xml, aperçu OpenGraph, consultation DNS, inspecteur d'en-têtes HTTP.

Questions fréquentes

`llms.txt` est un fichier Markdown à la racine de votre domaine (`https://votre-domaine/llms.txt`) décrivant la structure de votre site de manière amicale pour les modèles IA. Le standard a été introduit en 2024 par Jeremy Howard (llmstxt.org). Vous en avez probablement besoin si vous faites tourner un produit SaaS, des docs techniques, un blog dev, ou une boutique - partout où vous voulez que ChatGPT et Claude citent votre contenu précisément. Vous n'en avez pas besoin si c'est une landing page privée sans ambition d'être une source IA.

Ce que fait un validateur llms.txt

Mode d'emploi

Entrez un domaine (par exemple `exemple.fr`) ou une URL complète se terminant par `/llms.txt`. On préfixe automatiquement `https://` s'il manque.

Choisissez un fichier : `llms.txt` (navigation concise), `llms-full.txt` (contenu complet en un fichier) ou Les deux - on récupère les deux pour que vous puissiez les diff.

Cliquez sur "Vérifier". On récupère avec un timeout de 8 secondes, on parse le Markdown, et on probe les liens.

Le panneau Arbre parsé montre le titre, le résumé, et les sections H2 avec leurs bullets. Chaque lien reçoit un badge de santé coloré (200 / 3xx / 4xx / timeout).

Le panneau Issues flague les pièces manquantes : pas de H1, pas de sections, bullet malformé, Content-Type suspect, erreur HTTP. Chaque issue porte un numéro de ligne.

La vue brute dans une section dépliable montre exactement ce qu'on a reçu du serveur - pratique pour diff contre la sortie de votre CMS.

Corrigez, redéployez, cliquez sur "Vérifier" à nouveau. Le validateur ne cache jamais ; chaque requête récupère frais.

Quand cet outil est utile

Six situations où le validateur `llms.txt` vous épargne une session de débogage :

Premier déploiement de `llms.txt`. Vous venez d'en livrer un et voulez confirmer que le format est correct avant que les agents IA ne le découvrent. Le validateur attrape les H1 manquants, bullets malformés, et URLs relatives que certains parsers rejettent.
Conséquence de migration CMS. Votre liste de liens dans `llms.txt` peut maintenant pointer vers des pages mortes. La sonde de santé en 4 secondes vous montre chaque bullet qui 404.
Livrable d'audit AI-SEO. Un client veut un rapport "à quoi ressemble votre site pour ChatGPT et Claude" - la sortie du validateur est un point de départ propre, copier-collable.
Diff de variantes : le mode "Les deux" pulle `llms.txt` et `llms-full.txt` en parallèle pour que vous puissiez confirmer qu'ils ne se sont pas désynchronisés (sections différentes, dates périmées, pages manquantes).
Votre générateur d'étape de build a commencé à livrer un fichier cassé. Le parser d'Anthropic le refuse mais le message d'erreur est opaque. Le validateur vous pointe vers la ligne exacte.
Recherche concurrentielle. Mettez le domaine d'un concurrent, étudiez sa structure `llms.txt`, apprenez ce qu'il pense valoir la peine de surfacer.

Liés : validateur robots.txt + sitemap.xml, aperçu OpenGraph, consultation DNS, inspecteur d'en-têtes HTTP.

Questions fréquentes

Validateur llms.txt

Ce que fait un validateur llms.txt

Mode d'emploi

Quand cet outil est utile

Questions fréquentes

Outils similaires

Validateur robots.txt + sitemap

Aperçu Open Graph

Lookup DNS

Inspecteur en-têtes HTTP

Validateur llms.txt

Ce que fait un validateur llms.txt

Mode d'emploi

Quand cet outil est utile

Questions fréquentes

Outils similaires

Validateur robots.txt + sitemap

Aperçu Open Graph

Lookup DNS

Inspecteur en-têtes HTTP