Veille user agents IA
Les derniers crawlers IA du marché, agrégés depuis le référentiel communautaire ai-robots-txt. Rafraîchi chaque heure.
Source des données
Référentiel communautaire
ai-robots-txt/ai.robots.txt
— maintenu par la communauté open-source, licence CC-BY-SA.
robots.txt communautaireActivité du référentiel sur 52 semaines
20 commits détectés — un pic = une vague d'ajouts/modifications.
Liste complète des user agents (139)
| User-agent | Catégorie | Opérateur | Respecte robots.txt | Action recommandée |
|---|---|---|---|---|
AddSearchBot
|
— | Unclear at this time. | ? | À surveiller |
AI2Bot
|
— | [Ai2](https://allenai.org/crawler) | ? | À surveiller |
AI2Bot-DeepResearchEval
|
— | — | ? | À surveiller |
Ai2Bot-Dolma
|
— | — | ? | À surveiller |
aiHitBot
|
— | [aiHit](https://www.aihitdata.com/about) | ? | À surveiller |
amazon-kendra
|
— | — | ? | À surveiller |
Amazonbot
|
— | Amazon | ? | À surveiller |
AmazonBuyForMe
|
— | [Amazon](https://amazon.com) | ? | À surveiller |
Amzn-SearchBot
|
— | — | ? | À surveiller |
Amzn-User
|
— | — | ? | À surveiller |
Andibot
|
— | [Andi](https://andisearch.com/) | ? | À surveiller |
Anomura
|
— | [Direqt](https://direqt.ai) | ? | À surveiller |
anthropic-ai
|
— | — | ? | À surveiller |
ApifyBot
|
— | Unclear at this time. | ? | À surveiller |
ApifyWebsiteContentCrawler
|
— | Unclear at this time. | ? | À surveiller |
Applebot
|
— | Unclear at this time. | ? | À surveiller |
Applebot-Extended
|
— | — | ? | À surveiller |
Aranet-SearchBot
|
— | — | ? | À surveiller |
atlassian-bot
|
— | — | ? | À surveiller |
Awario
|
— | Awario | ? | À surveiller |
AzureAI-SearchBot
|
— | — | ? | À surveiller |
bedrockbot
|
— | [Amazon](https://amazon.com) | ? | À surveiller |
bigsur.ai
|
— | — | ? | À surveiller |
Bravebot
|
— | https://safe.search.brave.com/help/brave-search-crawler | ? | À surveiller |
Brightbot 1.0
|
— | — | ? | À surveiller |
BuddyBot
|
— | [BuddyBotLearning](https://www.buddybotlearning.com) | ? | À surveiller |
Bytespider
|
— | ByteDance | ? | À surveiller |
CCBot
|
— | [Common Crawl Foundation](https://commoncrawl.org) | ? | À surveiller |
Channel3Bot
|
— | Unclear at this time. | ? | À surveiller |
ChatGLM-Spider
|
— | — | ? | À surveiller |
ChatGPT Agent
|
— | [OpenAI](https://openai.com) | ? | À surveiller |
ChatGPT-User
|
— | — | ? | À surveiller |
Claude-SearchBot
|
— | — | ? | À surveiller |
Claude-User
|
— | — | ? | À surveiller |
Claude-Web
|
— | — | ? | À surveiller |
ClaudeBot
|
— | [Anthropic](https://www.anthropic.com) | ? | À surveiller |
Cloudflare-AutoRAG
|
— | — | ? | À surveiller |
CloudVertexBot
|
— | Unclear at this time. | ? | À surveiller |
cohere-ai
|
— | — | ? | À surveiller |
cohere-training-data-crawler
|
— | — | ? | À surveiller |
Cotoyogi
|
— | [ROIS](https://ds.rois.ac.jp/en_center8/en_crawler/) | ? | À surveiller |
Crawl4AI
|
— | Unclear at this time. | ? | À surveiller |
Crawlspace
|
— | [Crawlspace](https://crawlspace.dev) | ? | À surveiller |
Datenbank Crawler
|
— | Datenbank | ? | À surveiller |
DeepSeekBot
|
— | DeepSeek | ? | À surveiller |
Devin
|
— | Devin AI | ? | À surveiller |
Diffbot
|
— | [Diffbot](https://www.diffbot.com/) | ? | À surveiller |
DuckAssistBot
|
— | Unclear at this time. | ? | À surveiller |
Echobot Bot
|
— | Echobox | ? | À surveiller |
EchoboxBot
|
— | [Echobox](https://echobox.com) | ? | À surveiller |
ExaBot
|
— | Unclear at this time. | ? | À surveiller |
FacebookBot
|
— | Meta/Facebook | ? | À surveiller |
facebookexternalhit
|
— | Meta/Facebook | ? | À surveiller |
Factset_spyderbot
|
— | — | ? | À surveiller |
FirecrawlAgent
|
— | [Firecrawl](https://www.firecrawl.dev/) | ? | À surveiller |
FriendlyCrawler
|
— | Unknown | ? | À surveiller |
Gemini-Deep-Research
|
— | — | ? | À surveiller |
Google-Agent
|
— | — | ? | À surveiller |
Google-CloudVertexBot
|
— | — | ? | À surveiller |
Google-Extended
|
— | — | ? | À surveiller |
Google-Firebase
|
— | — | ? | À surveiller |
Google-NotebookLM
|
— | — | ? | À surveiller |
GoogleAgent-Mariner
|
— | — | ? | À surveiller |
GoogleOther
|
— | ? | À surveiller | |
GoogleOther-Image
|
— | — | ? | À surveiller |
GoogleOther-Video
|
— | — | ? | À surveiller |
GPTBot
|
— | [OpenAI](https://openai.com) | ? | À surveiller |
iAskBot
|
— | Unclear at this time. | ? | À surveiller |
iaskspider
|
— | Unclear at this time. | ? | À surveiller |
iaskspider/2.0
|
— | — | ? | À surveiller |
IbouBot
|
— | Ibou | ? | À surveiller |
ICC-Crawler
|
— | — | ? | À surveiller |
ImagesiftBot
|
— | [ImageSift](https://imagesift.com) | ? | À surveiller |
imageSpider
|
— | Unclear at this time. | ? | À surveiller |
img2dataset
|
— | [img2dataset](https://github.com/rom1504/img2dataset) | ? | À surveiller |
ISSCyberRiskCrawler
|
— | [ISS-Corporate](https://iss-cyber.com) | ? | À surveiller |
kagi-fetcher
|
— | — | ? | À surveiller |
Kangaroo Bot
|
— | Unclear at this time. | ? | À surveiller |
KlaviyoAIBot
|
— | [Klaviyo](https://www.klaviyo.com) | ? | À surveiller |
KunatoCrawler
|
— | Unclear at this time. | ? | À surveiller |
laion-huggingface-processor
|
— | — | ? | À surveiller |
LAIONDownloader
|
— | [Large-scale Artificial Intelligence Open Network](https://laion.ai/) | ? | À surveiller |
LCC
|
— | Unclear at this time. | ? | À surveiller |
LinerBot
|
— | Unclear at this time. | ? | À surveiller |
Linguee Bot
|
— | [Linguee](https://www.linguee.com) | ? | À surveiller |
LinkupBot
|
— | Unclear at this time. | ? | À surveiller |
Manus-User
|
— | — | ? | À surveiller |
meta-externalagent
|
— | — | ? | À surveiller |
Meta-ExternalAgent
|
— | — | ? | À surveiller |
meta-externalfetcher
|
— | — | ? | À surveiller |
Meta-ExternalFetcher
|
— | — | ? | À surveiller |
meta-webindexer
|
— | — | ? | À surveiller |
MistralAI-User
|
— | — | ? | À surveiller |
MistralAI-User/1.0
|
— | — | ? | À surveiller |
MyCentralAIScraperBot
|
— | Unclear at this time. | ? | À surveiller |
netEstate Imprint Crawler
|
— | netEstate | ? | À surveiller |
NotebookLM
|
— | Unclear at this time. | ? | À surveiller |
NovaAct
|
— | Unclear at this time. | ? | À surveiller |
OAI-SearchBot
|
— | — | ? | À surveiller |
omgili
|
— | [Webz.io](https://webz.io/) | ? | À surveiller |
omgilibot
|
— | [Webz.io](https://webz.io/) | ? | À surveiller |
OpenAI
|
— | [OpenAI](https://openai.com) | ? | À surveiller |
Operator
|
— | Unclear at this time. | ? | À surveiller |
PanguBot
|
— | the Chinese company Huawei | ? | À surveiller |
Panscient
|
— | [Panscient](https://panscient.com) | ? | À surveiller |
panscient.com
|
— | — | ? | À surveiller |
Perplexity-User
|
— | — | ? | À surveiller |
PerplexityBot
|
— | [Perplexity](https://www.perplexity.ai/) | ? | À surveiller |
PetalBot
|
— | [Huawei](https://huawei.com/) | ? | À surveiller |
PhindBot
|
— | [phind](https://www.phind.com/) | ? | À surveiller |
Poggio-Citations
|
— | — | ? | À surveiller |
Poseidon Research Crawler
|
— | [Poseidon Research](https://www.poseidonresearch.com) | ? | À surveiller |
QualifiedBot
|
— | [Qualified](https://www.qualified.com) | ? | À surveiller |
QuillBot
|
— | [Quillbot](https://quillbot.com) | ? | À surveiller |
quillbot.com
|
— | — | ? | À surveiller |
SBIntuitionsBot
|
— | [SB Intuitions](https://www.sbintuitions.co.jp/en/) | ? | À surveiller |
Scrapy
|
— | [Zyte](https://www.zyte.com) | ? | À surveiller |
SemrushBot-OCOB
|
— | — | ? | À surveiller |
SemrushBot-SWA
|
— | — | ? | À surveiller |
ShapBot
|
— | [Parallel](https://parallel.ai) | ? | À surveiller |
Sidetrade indexer bot
|
— | [Sidetrade](https://www.sidetrade.com) | ? | À surveiller |
Spider
|
— | Unclear at this time. | ? | À surveiller |
TavilyBot
|
— | Unclear at this time. | ? | À surveiller |
TerraCotta
|
— | [Ceramic AI](https://ceramic.ai/) | ? | À surveiller |
Thinkbot
|
— | [Thinkbot](https://www.thinkbot.agency) | ? | À surveiller |
TikTokSpider
|
— | ByteDance | ? | À surveiller |
Timpibot
|
— | [Timpi](https://timpi.io) | ? | À surveiller |
TwinAgent
|
— | Unclear at this time. | ? | À surveiller |
VelenPublicWebCrawler
|
— | [Velen Crawler](https://velen.io) | ? | À surveiller |
WARDBot
|
— | WEBSPARK | ? | À surveiller |
Webzio-Extended
|
— | — | ? | À surveiller |
webzio-extended
|
— | — | ? | À surveiller |
wpbot
|
— | [QuantumCloud](https://www.quantumcloud.com) | ? | À surveiller |
WRTNBot
|
— | Unclear at this time. | ? | À surveiller |
YaK
|
— | [Meltwater](https://www.meltwater.com/en/suite/consumer-intelligence) | ? | À surveiller |
YandexAdditional
|
— | [Yandex](https://yandex.ru) | ? | À surveiller |
YandexAdditionalBot
|
— | [Yandex](https://yandex.ru) | ? | À surveiller |
YouBot
|
— | [You](https://about.you.com/youchat/) | ? | À surveiller |
ZanistaBot
|
— | Unclear at this time. | ? | À surveiller |
Dernières modifications du référentiel
20 derniers commits sur la branche main.
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Merge pull request #216 from flymarq/lighttpd
- Use adverb.
- Add reference file for lighttpd test.
- Add lighttpd test.
- Update from Dark Visitors
- Add lighttpd sample file.
- Fix typos.
- Update with lighttpd instructions.
- Add generation and output of lighttpd configuration fragment.
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Update from Dark Visitors
- Update ai_robots_update.yml with rebase command to fix scheduled run
Comment utiliser ces données ?
Autoriser
Laissez passer les crawlers qui indexent votre contenu vers un moteur de recherche IA (OAI-SearchBot, PerplexityBot…) si votre stratégie est d'être cité.
Bloquer
Ajoutez les bots d'entraînement qui ignorent robots.txt à votre WAF / NGINX.
Le robots.txt seul ne suffit pas.
Surveiller
Loggez les accès par user-agent (nginx access_log, Cloudflare analytics) et croisez avec cette liste pour mesurer votre exposition réelle.