如何编写 llms.txt?为 AI 抓取内容制定规则,打不过就加入。

ChemiCloud - Excellent Web Hosting Services

现在网站 SEO 优化正在经历从搜索引擎到 AI 的急剧变化。站长们不管愿不愿意都会面临着如何管理自己原创的内容被 AI 使用?现在看到有的虚拟主机商家将自动创建llms.txt 作为卖点,我也开始关注llms.txt,llms.txt编写几乎跟 robots。txt没啥区别,不同的地方就是llms.txts 是给 AI 看的,与其抵抗不如加入。

什么是llms.txt

llms.txt 是一个放置在网站根目录下的纯文本文件,向 AI 模型清晰地传达网站内容的使用规则,告诉前来访问的 AI 爬虫需要遵守以下规定。

这个新兴标准由 Answer.AI 的创始人 Jeremy Howard 等 AI 专家推动,主流的 Anthropic(Claude AI)、等重要AI公司的支持。

llms.txt vs. robots.txt;两者有何不同?

我第一眼看到 llms.txt 都会觉得它和 robots.txt 非常相似,语法几乎一样,这么做主要是为了降低学习成本而有意设计的。在核心功能上,它们截然不同。

robots.txt 主要面向传统搜索引擎爬虫(如 Googlebot, Baiduspider 等)。它们的任务是抓取、收录网页,并为搜索结果建立索引。

llms.txt 专门面向大型语言模型(LLM)的 AI 工具(如 anthropic-ai, Google-Extended 等)。它们的任务是获取内容,用于模型训练、回答用户问题等。

robots.txt 主要管理抓取方式,防止服务器过载,以及避免低质量页面(如后台、搜索结果页)被收录。这是一个技术和SEO层面的指令。

llms.txt 主要目的是声明内容使用权,控制数据是否能被用于AI训练、是否需要提供引用等。这是一个版权和策略层面的指令。

如何编写 llms.txt?

编写 llms.txt 非常简单,命名为 llms.txt,然后将写好的 llms.txt上传到网站的根目录,确保可以通过 https://yourdomain.com/llms.txt 访问。

编写与robots.txt几乎一样。

  • User-agent: 指定规则对哪个AI代理生效。* 代表所有代理。
  • Disallow: 禁止代理将指定路径的内容用于其目的(如训练)。留空则代表允许。

最后选择自己想要的策略

策略1:完全开放 允许所有AI模型不受限制地使用您网站的所有内容。

# Welcome all AI models to use site content without restriction.
User-agent: *
Disallow:

策略2:平衡保护 允许AI使用大部分内容,但禁止访问和使用敏感或非公开目录。

# Allow general use, but protect sensitive areas.
User-agent: *
Disallow: /admin/
Disallow: /private-notes/
Disallow: /api-data/

策略3:精英白名单(推荐) 默认禁止所有AI,然后仅对那些承诺提供引用优质 AI 开放权限。这是国外 SEO 提供的最符合 AI 优化的做法。

# Block all by default, then whitelist high-quality AI agents.
User-agent: *
Disallow: /

# Whitelist for Anthropic (Claude)
User-agent: anthropic-ai
Disallow:

# Whitelist for Google AI (Gemini, etc.)
User-agent: Google-Extended
Disallow:

# Whitelist for OpenAI
User-agent: ChatGPT-User
Disallow:

# Whitelist for Perplexity AI
User-agent: PerplexityBot Disallow:

llms.txt 的未来

llms.txt 极有可能成为未来的行业标准。但是主要依赖于AI 公司的自愿遵守,缺乏强制性。一些不规范的公司可能会选择忽略它。其中 Anthropic 不仅在其官方文档网站上部署了 llms.txt 和 llms-full.txt 文件,像主流的 Google (Google-Extended)、OpenAI (ChatGPT-User)、Perplexity AI (PerplexityBot)都在观望或者配合,在提供的资讯中引用信息源就是好的开端

主要有以下几点:

  1. 简单易用:沿用 robots.txt 的语法,几乎没有学习和部署成本。
  2. 需求迫切:以最简单的方式精准地解决了内容创作者与AI公司之间的核心矛盾。
  3. 行业动力:Anthropic这样的头部AI公司率先支持,形成了良好的开端。社区驱动的追踪目录也显示出其强大的生命力。

对于站长,现在就部署 llms.txt 是一个迫不得已技术操作,理解并尊重 AI 与现在主流 AI 达成协作可以帮助网站在即将到来的 AI 浪潮中占据有利位置。

未经允许不得转载:主机格调 » 如何编写 llms.txt?为 AI 抓取内容制定规则,打不过就加入。

ChemiCloud - Excellent Web Hosting Services

评论

9+3=