Crawlers IA : liste et classement SEO des user agents
Référentiel actionnable des bots IA (GPTBot, ClaudeBot, PerplexityBot…), classés par impact SEO. Agrégé depuis ai-robots-txt, rafraîchi chaque heure.
5 derniers crawlers IA identifiés
Détectés automatiquement depuis les titres de commits « Add … » du référentiel.
-
Brightbot -
Claude-Code -
Code -
Google-Gemini-CLI -
HenkBot
Répartition par type (classement SEO)
Classification selon l'usage du bot : scrape pour entraîner un modèle, crawle pour indexer, ou fetch déclenché par un prompt. Cliquer sur une ligne pour filtrer le tableau.
Liste complète des crawlers IA (149 référencés)
Exporter
| User-agent | Type | Opérateur | Date de découverte | Action |
|---|---|---|---|---|
AddSearchBot
|
Indexation | AddSearch | 1 Août 2025 | Autoriser |
AI2Bot
|
Enrichissement LLM | [Ai2](https://allenai.org/crawler) | — | Bloquer par défaut |
AI2Bot-DeepResearchEval
|
User-action / live | Allen Institute for AI | 4 Déc 2025 | À considérer |
Ai2Bot-Dolma
|
Enrichissement LLM | — | — | Bloquer par défaut |
aiHitBot
|
Enrichissement LLM | [aiHit](https://www.aihitdata.com/about) | — | Bloquer par défaut |
amazon-kendra
|
Indexation | — | 21 Nov 2025 | Autoriser |
Amazonbot
|
Indexation | Amazon | 24 Oct 2025 | Autoriser |
AmazonBuyForMe
|
User-action / live | [Amazon](https://amazon.com) | 5 Nov 2025 | À considérer |
Amzn-SearchBot
|
Indexation | Amazon | 14 Fév 2026 | Autoriser |
Amzn-User
|
User-action / live | Amazon | 14 Fév 2026 | À considérer |
Andibot
|
Indexation | [Andi](https://andisearch.com/) | — | Autoriser |
Anomura
|
Indexation | [Direqt](https://direqt.ai) | 20 Oct 2025 | Autoriser |
anthropic-ai
|
User-action / live | — | — | À considérer |
ApifyBot
|
Enrichissement LLM | Apify | 7 Mar 2026 | Bloquer par défaut |
ApifyWebsiteContentCrawler
|
Enrichissement LLM | Apify | 7 Mar 2026 | Bloquer par défaut |
Applebot
|
Indexation | Apple | — | Autoriser |
Applebot-Extended
|
Enrichissement LLM | — | — | Bloquer par défaut |
Aranet-SearchBot
|
Indexation | — | 27 Mar 2026 | Autoriser |
atlassian-bot
|
Indexation | — | 5 Nov 2025 | Autoriser |
Awario
|
Enrichissement LLM | Awario | — | Bloquer par défaut |
AzureAI-SearchBot
|
Indexation | Microsoft | 14 Fév 2026 | Autoriser |
bedrockbot
|
Indexation | [Amazon](https://amazon.com) | — | Autoriser |
bigsur.ai
|
User-action / live | — | 1 Août 2025 | À considérer |
Bravebot
|
Indexation | https://safe.search.brave.com/help/brave-search-crawler | 20 Oct 2025 | Autoriser |
Brightbot
|
Autre | — | 13 Mai 2026 | À surveiller |
Brightbot 1.0
|
Enrichissement LLM | — | — | Bloquer par défaut |
BuddyBot
|
User-action / live | [BuddyBotLearning](https://www.buddybotlearning.com) | 4 Nov 2025 | À considérer |
Bytespider
|
Enrichissement LLM | ByteDance | — | Bloquer par défaut |
CCBot
|
Enrichissement LLM | [Common Crawl Foundation](https://commoncrawl.org) | — | Bloquer par défaut |
Channel3Bot
|
Indexation | Channel3 | 6 Déc 2025 | Autoriser |
ChatGLM-Spider
|
Enrichissement LLM | Zhipu AI | 4 Déc 2025 | Bloquer par défaut |
ChatGPT Agent
|
User-action / live | [OpenAI](https://openai.com) | 30 Juil 2025 | À considérer |
ChatGPT-User
|
User-action / live | — | — | À considérer |
Claude-Code
|
Autre | — | 13 Mai 2026 | À surveiller |
Claude-SearchBot
|
Indexation | — | — | Autoriser |
Claude-User
|
User-action / live | — | — | À considérer |
Claude-Web
|
User-action / live | — | — | À considérer |
ClaudeBot
|
Enrichissement LLM | [Anthropic](https://www.anthropic.com) | — | Bloquer par défaut |
Cloudflare-AutoRAG
|
Indexation | — | 20 Oct 2025 | Autoriser |
CloudVertexBot
|
Indexation | 1 Août 2025 | Autoriser | |
Code
|
Autre | — | 13 Mai 2026 | À surveiller |
cohere-ai
|
Enrichissement LLM | — | — | Bloquer par défaut |
cohere-training-data-crawler
|
Enrichissement LLM | — | — | Bloquer par défaut |
Cotoyogi
|
Enrichissement LLM | [ROIS](https://ds.rois.ac.jp/en_center8/en_crawler/) | — | Bloquer par défaut |
Crawl4AI
|
Enrichissement LLM | Crawl4AI | 4 Déc 2025 | Bloquer par défaut |
Crawlspace
|
Enrichissement LLM | [Crawlspace](https://crawlspace.dev) | — | Bloquer par défaut |
Datenbank Crawler
|
Enrichissement LLM | Datenbank | — | Bloquer par défaut |
DeepSeekBot
|
Enrichissement LLM | DeepSeek | 25 Sep 2025 | Bloquer par défaut |
Devin
|
User-action / live | Devin AI | — | À considérer |
Diffbot
|
Enrichissement LLM | [Diffbot](https://www.diffbot.com/) | — | Bloquer par défaut |
DuckAssistBot
|
Indexation | DuckDuckGo | — | Autoriser |
Echobot Bot
|
Enrichissement LLM | Echobox | — | Bloquer par défaut |
EchoboxBot
|
Enrichissement LLM | [Echobox](https://echobox.com) | — | Bloquer par défaut |
ExaBot
|
Indexation | Exa | 7 Mar 2026 | Autoriser |
FacebookBot
|
Enrichissement LLM | Meta/Facebook | — | Bloquer par défaut |
facebookexternalhit
|
User-action / live | Meta/Facebook | — | À considérer |
Factset_spyderbot
|
Enrichissement LLM | — | — | Bloquer par défaut |
FirecrawlAgent
|
Enrichissement LLM | [Firecrawl](https://www.firecrawl.dev/) | — | Bloquer par défaut |
FriendlyCrawler
|
Enrichissement LLM | Unknown | — | Bloquer par défaut |
Gemini-Deep-Research
|
User-action / live | — | À considérer | |
Google-Agent
|
User-action / live | 27 Mar 2026 | À considérer | |
Google-CloudVertexBot
|
User-action / live | — | — | À considérer |
Google-Extended
|
Enrichissement LLM | — | — | Bloquer par défaut |
Google-Firebase
|
User-action / live | — | 27 Août 2025 | À considérer |
Google-Gemini-CLI
|
Autre | — | 13 Mai 2026 | À surveiller |
Google-NotebookLM
|
User-action / live | 16 Oct 2025 | À considérer | |
GoogleAgent-Mariner
|
User-action / live | — | 17 Juil 2025 | À considérer |
GoogleOther
|
User-action / live | — | À considérer | |
GoogleOther-Image
|
User-action / live | — | — | À considérer |
GoogleOther-Video
|
User-action / live | — | — | À considérer |
GPTBot
|
Enrichissement LLM | [OpenAI](https://openai.com) | — | Bloquer par défaut |
HenkBot
|
Autre | — | 13 Mai 2026 | À surveiller |
iAskBot
|
Indexation | iAsk AI | 4 Déc 2025 | Autoriser |
iaskspider
|
Enrichissement LLM | SINA | 4 Déc 2025 | Bloquer par défaut |
iaskspider/2.0
|
Enrichissement LLM | — | — | Bloquer par défaut |
IbouBot
|
Indexation | Ibou | 21 Oct 2025 | Autoriser |
ICC-Crawler
|
Enrichissement LLM | — | — | Bloquer par défaut |
ImagesiftBot
|
Enrichissement LLM | [ImageSift](https://imagesift.com) | — | Bloquer par défaut |
imageSpider
|
Enrichissement LLM | ByteDance | 4 Déc 2025 | Bloquer par défaut |
img2dataset
|
Enrichissement LLM | [img2dataset](https://github.com/rom1504/img2dataset) | — | Bloquer par défaut |
ISSCyberRiskCrawler
|
Enrichissement LLM | [ISS-Corporate](https://iss-cyber.com) | — | Bloquer par défaut |
kagi-fetcher
|
User-action / live | Kagi | 14 Fév 2026 | À considérer |
Kangaroo Bot
|
Enrichissement LLM | Kangaroo LLM | — | Bloquer par défaut |
KlaviyoAIBot
|
Indexation | [Klaviyo](https://www.klaviyo.com) | 14 Nov 2025 | Autoriser |
KunatoCrawler
|
Indexation | Kunato | 4 Déc 2025 | Autoriser |
laion-huggingface-processor
|
Enrichissement LLM | LAION | 4 Déc 2025 | Bloquer par défaut |
LAIONDownloader
|
Enrichissement LLM | [Large-scale Artificial Intelligence Open Network](https://laion.ai/) | 29 Nov 2025 | Bloquer par défaut |
LCC
|
Enrichissement LLM | Université de Leipzig | 4 Déc 2025 | Bloquer par défaut |
LinerBot
|
User-action / live | Liner | 1 Août 2025 | À considérer |
Linguee Bot
|
Enrichissement LLM | [Linguee](https://www.linguee.com) | 24 Oct 2025 | Bloquer par défaut |
LinkupBot
|
Indexation | Linkup | 4 Déc 2025 | Autoriser |
Manus-User
|
User-action / live | Butterfly Effect | 4 Déc 2025 | À considérer |
meta-externalagent
|
Enrichissement LLM | Meta | — | Bloquer par défaut |
Meta-ExternalAgent
|
Enrichissement LLM | Meta | — | Bloquer par défaut |
meta-externalfetcher
|
Enrichissement LLM | Meta | — | Bloquer par défaut |
Meta-ExternalFetcher
|
Enrichissement LLM | Meta | — | Bloquer par défaut |
meta-webindexer
|
Indexation | — | 9 Sep 2025 | Autoriser |
MistralAI-User
|
User-action / live | — | — | À considérer |
MistralAI-User/1.0
|
User-action / live | — | — | À considérer |
MyCentralAIScraperBot
|
Enrichissement LLM | — | — | Bloquer par défaut |
NagetBot
|
Autre | Naget Inc (founded by Chris Samarinas, headquarter in Amherst, Massachusetts) | 2 Mai 2026 | À surveiller |
netEstate Imprint Crawler
|
Enrichissement LLM | netEstate | — | Bloquer par défaut |
newsai
|
Autre | — | 2 Mai 2026 | À surveiller |
NotebookLM
|
User-action / live | 14 Nov 2025 | À considérer | |
NovaAct
|
User-action / live | Amazon | — | À considérer |
OAI-SearchBot
|
Indexation | — | — | Autoriser |
omgili
|
Enrichissement LLM | [Webz.io](https://webz.io/) | — | Bloquer par défaut |
omgilibot
|
Enrichissement LLM | [Webz.io](https://webz.io/) | — | Bloquer par défaut |
OpenAI
|
User-action / live | [OpenAI](https://openai.com) | 14 Août 2025 | À considérer |
opencode
|
Autre | — | 13 Mai 2026 | À surveiller |
Operator
|
User-action / live | OpenAI | — | À considérer |
PanguBot
|
Enrichissement LLM | the Chinese company Huawei | — | Bloquer par défaut |
Panscient
|
Enrichissement LLM | [Panscient](https://panscient.com) | — | Bloquer par défaut |
panscient.com
|
Enrichissement LLM | — | — | Bloquer par défaut |
Perplexity-User
|
User-action / live | — | — | À considérer |
PerplexityBot
|
Indexation | [Perplexity](https://www.perplexity.ai/) | — | Autoriser |
PetalBot
|
Indexation | [Huawei](https://huawei.com/) | — | Autoriser |
PhindBot
|
Indexation | [phind](https://www.phind.com/) | — | Autoriser |
Poggio-Citations
|
User-action / live | Poggio | 4 Déc 2025 | À considérer |
Poseidon Research Crawler
|
Enrichissement LLM | [Poseidon Research](https://www.poseidonresearch.com) | — | Bloquer par défaut |
QualifiedBot
|
User-action / live | [Qualified](https://www.qualified.com) | — | À considérer |
QuillBot
|
Enrichissement LLM | [Quillbot](https://quillbot.com) | — | Bloquer par défaut |
quillbot.com
|
Enrichissement LLM | Quillbot | — | Bloquer par défaut |
SBIntuitionsBot
|
Enrichissement LLM | [SB Intuitions](https://www.sbintuitions.co.jp/en/) | — | Bloquer par défaut |
Scrapy
|
Enrichissement LLM | [Zyte](https://www.zyte.com) | — | Bloquer par défaut |
SemrushBot-OCOB
|
Indexation | — | — | Autoriser |
SemrushBot-SWA
|
Indexation | — | — | Autoriser |
ShapBot
|
Indexation | [Parallel](https://parallel.ai) | 27 Août 2025 | Autoriser |
Sidetrade indexer bot
|
Enrichissement LLM | [Sidetrade](https://www.sidetrade.com) | — | Bloquer par défaut |
Spider
|
Enrichissement LLM | Spider | 4 Déc 2025 | Bloquer par défaut |
TavilyBot
|
Indexation | Tavily | 21 Déc 2025 | Autoriser |
Terra Cotta
|
Autre | — | 13 Mai 2026 | À surveiller |
TerraCotta
|
Enrichissement LLM | [Ceramic AI](https://ceramic.ai/) | 10 Sep 2025 | Bloquer par défaut |
Thinkbot
|
Enrichissement LLM | [Thinkbot](https://www.thinkbot.agency) | 7 Juil 2025 | Bloquer par défaut |
TikTokSpider
|
Enrichissement LLM | ByteDance | 8 Juil 2025 | Bloquer par défaut |
Timpibot
|
Enrichissement LLM | [Timpi](https://timpi.io) | — | Bloquer par défaut |
Trae
|
Autre | — | 13 Mai 2026 | À surveiller |
TwinAgent
|
User-action / live | Twin | 6 Déc 2025 | À considérer |
VelenPublicWebCrawler
|
Enrichissement LLM | [Velen Crawler](https://velen.io) | — | Bloquer par défaut |
WARDBot
|
Enrichissement LLM | WEBSPARK | — | Bloquer par défaut |
Webzio-Extended
|
Enrichissement LLM | Webz.io | 4 Déc 2025 | Bloquer par défaut |
webzio-extended
|
Enrichissement LLM | Webz.io | 4 Déc 2025 | Bloquer par défaut |
wpbot
|
User-action / live | [QuantumCloud](https://www.quantumcloud.com) | — | À considérer |
WRTNBot
|
Enrichissement LLM | Wrtn | 4 Déc 2025 | Bloquer par défaut |
YaK
|
Enrichissement LLM | [Meltwater](https://www.meltwater.com/en/suite/consumer-intelligence) | 28 Juil 2025 | Bloquer par défaut |
YandexAdditional
|
Enrichissement LLM | [Yandex](https://yandex.ru) | — | Bloquer par défaut |
YandexAdditionalBot
|
Enrichissement LLM | [Yandex](https://yandex.ru) | — | Bloquer par défaut |
YouBot
|
Indexation | [You](https://about.you.com/youchat/) | — | Autoriser |
ZanistaBot
|
Autre | Zanista | 4 Déc 2025 | À surveiller |
Activité récente du référentiel ai-robots-txt
5 derniers commits ayant touché le fichier robots.txt, classés par type d'action.
Voir tout l'historique
- Modification
- Merge
- Modification
- Modification
- Modification
Comment utiliser ces données ?
Enrichissement LLM
Scrape le web pour entraîner ou fine-tuner un modèle. Votre contenu finit en data de pré-entraînement.
Action recommandée : Bloquer par défaut
Indexation
Crawle pour alimenter un moteur de recherche IA. Votre site peut être cité comme source dans les réponses.
Action recommandée : Autoriser
User-action / live
Déclenché au moment d'un prompt utilisateur (collage d'URL, question directe). Fetch ponctuel, pas d'indexation.
Action recommandée : À considérer
Ajouts et modifications de bots : 12 derniers mois
43 commits ont modifié le fichier robots.txt du référentiel sur cette période.
Survolez une barre pour voir les bots ajoutés, retirés et le nombre de modifications du mois.
Source des données
Référentiel communautaire
ai-robots-txt/ai.robots.txt
: licence CC-BY-SA. Classification SEO curated côté yapasdequoi.com.