Aller au contenu

Crawlers IA : liste et classement SEO des user agents

Référentiel actionnable des bots IA (GPTBot, ClaudeBot, PerplexityBot…), classés par impact SEO. Agrégé depuis ai-robots-txt, rafraîchi chaque heure.

149
Bots IA référencés
Toutes catégories confondues
70
Scrapers d'entraînement
À bloquer par défaut
0
Nouveaux scrapers 30 j
Apparus le mois dernier
4 jours
Depuis dernière modif
Keep generated robot files in dark visitors update

5 derniers crawlers IA identifiés

Détectés automatiquement depuis les titres de commits « Add … » du référentiel.

Répartition par type (classement SEO)

Classification selon l'usage du bot : scrape pour entraîner un modèle, crawle pour indexer, ou fetch déclenché par un prompt. Cliquer sur une ligne pour filtrer le tableau.

Liste complète des crawlers IA (149 référencés)

Exporter
User-agent Type Opérateur Date de découverte Action
AddSearchBot Indexation AddSearch 1 Août 2025 Autoriser
AI2Bot Enrichissement LLM [Ai2](https://allenai.org/crawler) Bloquer par défaut
AI2Bot-DeepResearchEval User-action / live Allen Institute for AI 4 Déc 2025 À considérer
Ai2Bot-Dolma Enrichissement LLM Bloquer par défaut
aiHitBot Enrichissement LLM [aiHit](https://www.aihitdata.com/about) Bloquer par défaut
amazon-kendra Indexation 21 Nov 2025 Autoriser
Amazonbot Indexation Amazon 24 Oct 2025 Autoriser
AmazonBuyForMe User-action / live [Amazon](https://amazon.com) 5 Nov 2025 À considérer
Amzn-SearchBot Indexation Amazon 14 Fév 2026 Autoriser
Amzn-User User-action / live Amazon 14 Fév 2026 À considérer
Andibot Indexation [Andi](https://andisearch.com/) Autoriser
Anomura Indexation [Direqt](https://direqt.ai) 20 Oct 2025 Autoriser
anthropic-ai User-action / live À considérer
ApifyBot Enrichissement LLM Apify 7 Mar 2026 Bloquer par défaut
ApifyWebsiteContentCrawler Enrichissement LLM Apify 7 Mar 2026 Bloquer par défaut
Applebot Indexation Apple Autoriser
Applebot-Extended Enrichissement LLM Bloquer par défaut
Aranet-SearchBot Indexation 27 Mar 2026 Autoriser
atlassian-bot Indexation 5 Nov 2025 Autoriser
Awario Enrichissement LLM Awario Bloquer par défaut
AzureAI-SearchBot Indexation Microsoft 14 Fév 2026 Autoriser
bedrockbot Indexation [Amazon](https://amazon.com) Autoriser
bigsur.ai User-action / live 1 Août 2025 À considérer
Bravebot Indexation https://safe.search.brave.com/help/brave-search-crawler 20 Oct 2025 Autoriser
Brightbot Autre 13 Mai 2026 À surveiller
Brightbot 1.0 Enrichissement LLM Bloquer par défaut
BuddyBot User-action / live [BuddyBotLearning](https://www.buddybotlearning.com) 4 Nov 2025 À considérer
Bytespider Enrichissement LLM ByteDance Bloquer par défaut
CCBot Enrichissement LLM [Common Crawl Foundation](https://commoncrawl.org) Bloquer par défaut
Channel3Bot Indexation Channel3 6 Déc 2025 Autoriser
ChatGLM-Spider Enrichissement LLM Zhipu AI 4 Déc 2025 Bloquer par défaut
ChatGPT Agent User-action / live [OpenAI](https://openai.com) 30 Juil 2025 À considérer
ChatGPT-User User-action / live À considérer
Claude-Code Autre 13 Mai 2026 À surveiller
Claude-SearchBot Indexation Autoriser
Claude-User User-action / live À considérer
Claude-Web User-action / live À considérer
ClaudeBot Enrichissement LLM [Anthropic](https://www.anthropic.com) Bloquer par défaut
Cloudflare-AutoRAG Indexation 20 Oct 2025 Autoriser
CloudVertexBot Indexation Google 1 Août 2025 Autoriser
Code Autre 13 Mai 2026 À surveiller
cohere-ai Enrichissement LLM Bloquer par défaut
cohere-training-data-crawler Enrichissement LLM Bloquer par défaut
Cotoyogi Enrichissement LLM [ROIS](https://ds.rois.ac.jp/en_center8/en_crawler/) Bloquer par défaut
Crawl4AI Enrichissement LLM Crawl4AI 4 Déc 2025 Bloquer par défaut
Crawlspace Enrichissement LLM [Crawlspace](https://crawlspace.dev) Bloquer par défaut
Datenbank Crawler Enrichissement LLM Datenbank Bloquer par défaut
DeepSeekBot Enrichissement LLM DeepSeek 25 Sep 2025 Bloquer par défaut
Devin User-action / live Devin AI À considérer
Diffbot Enrichissement LLM [Diffbot](https://www.diffbot.com/) Bloquer par défaut
DuckAssistBot Indexation DuckDuckGo Autoriser
Echobot Bot Enrichissement LLM Echobox Bloquer par défaut
EchoboxBot Enrichissement LLM [Echobox](https://echobox.com) Bloquer par défaut
ExaBot Indexation Exa 7 Mar 2026 Autoriser
FacebookBot Enrichissement LLM Meta/Facebook Bloquer par défaut
facebookexternalhit User-action / live Meta/Facebook À considérer
Factset_spyderbot Enrichissement LLM Bloquer par défaut
FirecrawlAgent Enrichissement LLM [Firecrawl](https://www.firecrawl.dev/) Bloquer par défaut
FriendlyCrawler Enrichissement LLM Unknown Bloquer par défaut
Gemini-Deep-Research User-action / live Google À considérer
Google-Agent User-action / live Google 27 Mar 2026 À considérer
Google-CloudVertexBot User-action / live À considérer
Google-Extended Enrichissement LLM Bloquer par défaut
Google-Firebase User-action / live 27 Août 2025 À considérer
Google-Gemini-CLI Autre 13 Mai 2026 À surveiller
Google-NotebookLM User-action / live Google 16 Oct 2025 À considérer
GoogleAgent-Mariner User-action / live 17 Juil 2025 À considérer
GoogleOther User-action / live Google À considérer
GoogleOther-Image User-action / live À considérer
GoogleOther-Video User-action / live À considérer
GPTBot Enrichissement LLM [OpenAI](https://openai.com) Bloquer par défaut
HenkBot Autre 13 Mai 2026 À surveiller
iAskBot Indexation iAsk AI 4 Déc 2025 Autoriser
iaskspider Enrichissement LLM SINA 4 Déc 2025 Bloquer par défaut
iaskspider/2.0 Enrichissement LLM Bloquer par défaut
IbouBot Indexation Ibou 21 Oct 2025 Autoriser
ICC-Crawler Enrichissement LLM Bloquer par défaut
ImagesiftBot Enrichissement LLM [ImageSift](https://imagesift.com) Bloquer par défaut
imageSpider Enrichissement LLM ByteDance 4 Déc 2025 Bloquer par défaut
img2dataset Enrichissement LLM [img2dataset](https://github.com/rom1504/img2dataset) Bloquer par défaut
ISSCyberRiskCrawler Enrichissement LLM [ISS-Corporate](https://iss-cyber.com) Bloquer par défaut
kagi-fetcher User-action / live Kagi 14 Fév 2026 À considérer
Kangaroo Bot Enrichissement LLM Kangaroo LLM Bloquer par défaut
KlaviyoAIBot Indexation [Klaviyo](https://www.klaviyo.com) 14 Nov 2025 Autoriser
KunatoCrawler Indexation Kunato 4 Déc 2025 Autoriser
laion-huggingface-processor Enrichissement LLM LAION 4 Déc 2025 Bloquer par défaut
LAIONDownloader Enrichissement LLM [Large-scale Artificial Intelligence Open Network](https://laion.ai/) 29 Nov 2025 Bloquer par défaut
LCC Enrichissement LLM Université de Leipzig 4 Déc 2025 Bloquer par défaut
LinerBot User-action / live Liner 1 Août 2025 À considérer
Linguee Bot Enrichissement LLM [Linguee](https://www.linguee.com) 24 Oct 2025 Bloquer par défaut
LinkupBot Indexation Linkup 4 Déc 2025 Autoriser
Manus-User User-action / live Butterfly Effect 4 Déc 2025 À considérer
meta-externalagent Enrichissement LLM Meta Bloquer par défaut
Meta-ExternalAgent Enrichissement LLM Meta Bloquer par défaut
meta-externalfetcher Enrichissement LLM Meta Bloquer par défaut
Meta-ExternalFetcher Enrichissement LLM Meta Bloquer par défaut
meta-webindexer Indexation 9 Sep 2025 Autoriser
MistralAI-User User-action / live À considérer
MistralAI-User/1.0 User-action / live À considérer
MyCentralAIScraperBot Enrichissement LLM Bloquer par défaut
NagetBot Autre Naget Inc (founded by Chris Samarinas, headquarter in Amherst, Massachusetts) 2 Mai 2026 À surveiller
netEstate Imprint Crawler Enrichissement LLM netEstate Bloquer par défaut
newsai Autre 2 Mai 2026 À surveiller
NotebookLM User-action / live Google 14 Nov 2025 À considérer
NovaAct User-action / live Amazon À considérer
OAI-SearchBot Indexation Autoriser
omgili Enrichissement LLM [Webz.io](https://webz.io/) Bloquer par défaut
omgilibot Enrichissement LLM [Webz.io](https://webz.io/) Bloquer par défaut
OpenAI User-action / live [OpenAI](https://openai.com) 14 Août 2025 À considérer
opencode Autre 13 Mai 2026 À surveiller
Operator User-action / live OpenAI À considérer
PanguBot Enrichissement LLM the Chinese company Huawei Bloquer par défaut
Panscient Enrichissement LLM [Panscient](https://panscient.com) Bloquer par défaut
panscient.com Enrichissement LLM Bloquer par défaut
Perplexity-User User-action / live À considérer
PerplexityBot Indexation [Perplexity](https://www.perplexity.ai/) Autoriser
PetalBot Indexation [Huawei](https://huawei.com/) Autoriser
PhindBot Indexation [phind](https://www.phind.com/) Autoriser
Poggio-Citations User-action / live Poggio 4 Déc 2025 À considérer
Poseidon Research Crawler Enrichissement LLM [Poseidon Research](https://www.poseidonresearch.com) Bloquer par défaut
QualifiedBot User-action / live [Qualified](https://www.qualified.com) À considérer
QuillBot Enrichissement LLM [Quillbot](https://quillbot.com) Bloquer par défaut
quillbot.com Enrichissement LLM Quillbot Bloquer par défaut
SBIntuitionsBot Enrichissement LLM [SB Intuitions](https://www.sbintuitions.co.jp/en/) Bloquer par défaut
Scrapy Enrichissement LLM [Zyte](https://www.zyte.com) Bloquer par défaut
SemrushBot-OCOB Indexation Autoriser
SemrushBot-SWA Indexation Autoriser
ShapBot Indexation [Parallel](https://parallel.ai) 27 Août 2025 Autoriser
Sidetrade indexer bot Enrichissement LLM [Sidetrade](https://www.sidetrade.com) Bloquer par défaut
Spider Enrichissement LLM Spider 4 Déc 2025 Bloquer par défaut
TavilyBot Indexation Tavily 21 Déc 2025 Autoriser
Terra Cotta Autre 13 Mai 2026 À surveiller
TerraCotta Enrichissement LLM [Ceramic AI](https://ceramic.ai/) 10 Sep 2025 Bloquer par défaut
Thinkbot Enrichissement LLM [Thinkbot](https://www.thinkbot.agency) 7 Juil 2025 Bloquer par défaut
TikTokSpider Enrichissement LLM ByteDance 8 Juil 2025 Bloquer par défaut
Timpibot Enrichissement LLM [Timpi](https://timpi.io) Bloquer par défaut
Trae Autre 13 Mai 2026 À surveiller
TwinAgent User-action / live Twin 6 Déc 2025 À considérer
VelenPublicWebCrawler Enrichissement LLM [Velen Crawler](https://velen.io) Bloquer par défaut
WARDBot Enrichissement LLM WEBSPARK Bloquer par défaut
Webzio-Extended Enrichissement LLM Webz.io 4 Déc 2025 Bloquer par défaut
webzio-extended Enrichissement LLM Webz.io 4 Déc 2025 Bloquer par défaut
wpbot User-action / live [QuantumCloud](https://www.quantumcloud.com) À considérer
WRTNBot Enrichissement LLM Wrtn 4 Déc 2025 Bloquer par défaut
YaK Enrichissement LLM [Meltwater](https://www.meltwater.com/en/suite/consumer-intelligence) 28 Juil 2025 Bloquer par défaut
YandexAdditional Enrichissement LLM [Yandex](https://yandex.ru) Bloquer par défaut
YandexAdditionalBot Enrichissement LLM [Yandex](https://yandex.ru) Bloquer par défaut
YouBot Indexation [You](https://about.you.com/youchat/) Autoriser
ZanistaBot Autre Zanista 4 Déc 2025 À surveiller

Activité récente du référentiel ai-robots-txt

5 derniers commits ayant touché le fichier robots.txt, classés par type d'action. Voir tout l'historique

Comment utiliser ces données ?

Enrichissement LLM

Scrape le web pour entraîner ou fine-tuner un modèle. Votre contenu finit en data de pré-entraînement.

Action recommandée : Bloquer par défaut

Indexation

Crawle pour alimenter un moteur de recherche IA. Votre site peut être cité comme source dans les réponses.

Action recommandée : Autoriser

User-action / live

Déclenché au moment d'un prompt utilisateur (collage d'URL, question directe). Fetch ponctuel, pas d'indexation.

Action recommandée : À considérer

Ajouts et modifications de bots : 12 derniers mois

43 commits ont modifié le fichier robots.txt du référentiel sur cette période. Survolez une barre pour voir les bots ajoutés, retirés et le nombre de modifications du mois.

Source des données

Référentiel communautaire ai-robots-txt/ai.robots.txt : licence CC-BY-SA. Classification SEO curated côté yapasdequoi.com.

Dernière mise à jour du site il y a 5 minutes
Dernier commit du référentiel 13 mai 2026
Fichier source robots.txt
Historique commits 12 derniers mois