Aller au contenu

Veille user agents IA

Les derniers crawlers IA du marché, agrégés depuis le référentiel communautaire ai-robots-txt. Rafraîchi chaque heure.

Source des données

Référentiel communautaire ai-robots-txt/ai.robots.txt — maintenu par la communauté open-source, licence CC-BY-SA.

Dernière mise à jour du site il y a 17 minutes
Dernier commit du référentiel 27 mars 2026
Fichier source robots.txt
Flux d'activité Flux atom
139
Bots IA référencés
Dans le robots.txt communautaire
0
Ajouts sur 30 jours
Commits d'ajout détectés
15
Commits sur 90 jours
Vitalité du référentiel
4 semaines
Depuis le dernier commit
Update from Dark Visitors

Activité du référentiel sur 52 semaines

20 commits détectés — un pic = une vague d'ajouts/modifications.

Liste complète des user agents (139)

User-agent Catégorie Opérateur Respecte robots.txt Action recommandée
AddSearchBot Unclear at this time. ? À surveiller
AI2Bot [Ai2](https://allenai.org/crawler) ? À surveiller
AI2Bot-DeepResearchEval ? À surveiller
Ai2Bot-Dolma ? À surveiller
aiHitBot [aiHit](https://www.aihitdata.com/about) ? À surveiller
amazon-kendra ? À surveiller
Amazonbot Amazon ? À surveiller
AmazonBuyForMe [Amazon](https://amazon.com) ? À surveiller
Amzn-SearchBot ? À surveiller
Amzn-User ? À surveiller
Andibot [Andi](https://andisearch.com/) ? À surveiller
Anomura [Direqt](https://direqt.ai) ? À surveiller
anthropic-ai ? À surveiller
ApifyBot Unclear at this time. ? À surveiller
ApifyWebsiteContentCrawler Unclear at this time. ? À surveiller
Applebot Unclear at this time. ? À surveiller
Applebot-Extended ? À surveiller
Aranet-SearchBot ? À surveiller
atlassian-bot ? À surveiller
Awario Awario ? À surveiller
AzureAI-SearchBot ? À surveiller
bedrockbot [Amazon](https://amazon.com) ? À surveiller
bigsur.ai ? À surveiller
Bravebot https://safe.search.brave.com/help/brave-search-crawler ? À surveiller
Brightbot 1.0 ? À surveiller
BuddyBot [BuddyBotLearning](https://www.buddybotlearning.com) ? À surveiller
Bytespider ByteDance ? À surveiller
CCBot [Common Crawl Foundation](https://commoncrawl.org) ? À surveiller
Channel3Bot Unclear at this time. ? À surveiller
ChatGLM-Spider ? À surveiller
ChatGPT Agent [OpenAI](https://openai.com) ? À surveiller
ChatGPT-User ? À surveiller
Claude-SearchBot ? À surveiller
Claude-User ? À surveiller
Claude-Web ? À surveiller
ClaudeBot [Anthropic](https://www.anthropic.com) ? À surveiller
Cloudflare-AutoRAG ? À surveiller
CloudVertexBot Unclear at this time. ? À surveiller
cohere-ai ? À surveiller
cohere-training-data-crawler ? À surveiller
Cotoyogi [ROIS](https://ds.rois.ac.jp/en_center8/en_crawler/) ? À surveiller
Crawl4AI Unclear at this time. ? À surveiller
Crawlspace [Crawlspace](https://crawlspace.dev) ? À surveiller
Datenbank Crawler Datenbank ? À surveiller
DeepSeekBot DeepSeek ? À surveiller
Devin Devin AI ? À surveiller
Diffbot [Diffbot](https://www.diffbot.com/) ? À surveiller
DuckAssistBot Unclear at this time. ? À surveiller
Echobot Bot Echobox ? À surveiller
EchoboxBot [Echobox](https://echobox.com) ? À surveiller
ExaBot Unclear at this time. ? À surveiller
FacebookBot Meta/Facebook ? À surveiller
facebookexternalhit Meta/Facebook ? À surveiller
Factset_spyderbot ? À surveiller
FirecrawlAgent [Firecrawl](https://www.firecrawl.dev/) ? À surveiller
FriendlyCrawler Unknown ? À surveiller
Gemini-Deep-Research ? À surveiller
Google-Agent ? À surveiller
Google-CloudVertexBot ? À surveiller
Google-Extended ? À surveiller
Google-Firebase ? À surveiller
Google-NotebookLM ? À surveiller
GoogleAgent-Mariner ? À surveiller
GoogleOther Google ? À surveiller
GoogleOther-Image ? À surveiller
GoogleOther-Video ? À surveiller
GPTBot [OpenAI](https://openai.com) ? À surveiller
iAskBot Unclear at this time. ? À surveiller
iaskspider Unclear at this time. ? À surveiller
iaskspider/2.0 ? À surveiller
IbouBot Ibou ? À surveiller
ICC-Crawler ? À surveiller
ImagesiftBot [ImageSift](https://imagesift.com) ? À surveiller
imageSpider Unclear at this time. ? À surveiller
img2dataset [img2dataset](https://github.com/rom1504/img2dataset) ? À surveiller
ISSCyberRiskCrawler [ISS-Corporate](https://iss-cyber.com) ? À surveiller
kagi-fetcher ? À surveiller
Kangaroo Bot Unclear at this time. ? À surveiller
KlaviyoAIBot [Klaviyo](https://www.klaviyo.com) ? À surveiller
KunatoCrawler Unclear at this time. ? À surveiller
laion-huggingface-processor ? À surveiller
LAIONDownloader [Large-scale Artificial Intelligence Open Network](https://laion.ai/) ? À surveiller
LCC Unclear at this time. ? À surveiller
LinerBot Unclear at this time. ? À surveiller
Linguee Bot [Linguee](https://www.linguee.com) ? À surveiller
LinkupBot Unclear at this time. ? À surveiller
Manus-User ? À surveiller
meta-externalagent ? À surveiller
Meta-ExternalAgent ? À surveiller
meta-externalfetcher ? À surveiller
Meta-ExternalFetcher ? À surveiller
meta-webindexer ? À surveiller
MistralAI-User ? À surveiller
MistralAI-User/1.0 ? À surveiller
MyCentralAIScraperBot Unclear at this time. ? À surveiller
netEstate Imprint Crawler netEstate ? À surveiller
NotebookLM Unclear at this time. ? À surveiller
NovaAct Unclear at this time. ? À surveiller
OAI-SearchBot ? À surveiller
omgili [Webz.io](https://webz.io/) ? À surveiller
omgilibot [Webz.io](https://webz.io/) ? À surveiller
OpenAI [OpenAI](https://openai.com) ? À surveiller
Operator Unclear at this time. ? À surveiller
PanguBot the Chinese company Huawei ? À surveiller
Panscient [Panscient](https://panscient.com) ? À surveiller
panscient.com ? À surveiller
Perplexity-User ? À surveiller
PerplexityBot [Perplexity](https://www.perplexity.ai/) ? À surveiller
PetalBot [Huawei](https://huawei.com/) ? À surveiller
PhindBot [phind](https://www.phind.com/) ? À surveiller
Poggio-Citations ? À surveiller
Poseidon Research Crawler [Poseidon Research](https://www.poseidonresearch.com) ? À surveiller
QualifiedBot [Qualified](https://www.qualified.com) ? À surveiller
QuillBot [Quillbot](https://quillbot.com) ? À surveiller
quillbot.com ? À surveiller
SBIntuitionsBot [SB Intuitions](https://www.sbintuitions.co.jp/en/) ? À surveiller
Scrapy [Zyte](https://www.zyte.com) ? À surveiller
SemrushBot-OCOB ? À surveiller
SemrushBot-SWA ? À surveiller
ShapBot [Parallel](https://parallel.ai) ? À surveiller
Sidetrade indexer bot [Sidetrade](https://www.sidetrade.com) ? À surveiller
Spider Unclear at this time. ? À surveiller
TavilyBot Unclear at this time. ? À surveiller
TerraCotta [Ceramic AI](https://ceramic.ai/) ? À surveiller
Thinkbot [Thinkbot](https://www.thinkbot.agency) ? À surveiller
TikTokSpider ByteDance ? À surveiller
Timpibot [Timpi](https://timpi.io) ? À surveiller
TwinAgent Unclear at this time. ? À surveiller
VelenPublicWebCrawler [Velen Crawler](https://velen.io) ? À surveiller
WARDBot WEBSPARK ? À surveiller
Webzio-Extended ? À surveiller
webzio-extended ? À surveiller
wpbot [QuantumCloud](https://www.quantumcloud.com) ? À surveiller
WRTNBot Unclear at this time. ? À surveiller
YaK [Meltwater](https://www.meltwater.com/en/suite/consumer-intelligence) ? À surveiller
YandexAdditional [Yandex](https://yandex.ru) ? À surveiller
YandexAdditionalBot [Yandex](https://yandex.ru) ? À surveiller
YouBot [You](https://about.you.com/youchat/) ? À surveiller
ZanistaBot Unclear at this time. ? À surveiller

Comment utiliser ces données ?

Autoriser

Laissez passer les crawlers qui indexent votre contenu vers un moteur de recherche IA (OAI-SearchBot, PerplexityBot…) si votre stratégie est d'être cité.

Bloquer

Ajoutez les bots d'entraînement qui ignorent robots.txt à votre WAF / NGINX. Le robots.txt seul ne suffit pas.

Surveiller

Loggez les accès par user-agent (nginx access_log, Cloudflare analytics) et croisez avec cette liste pour mesurer votre exposition réelle.