如何编写 llms.txt?为 AI 抓取内容制定规则,打不过就加入。

如何编写 llms.txt?为 AI 抓取内容制定规则,打不过就加入。优惠促销主机格调

现在网站 SEO 优化正在经历从搜索引擎到 AI 的急剧变化。站长们不管愿不愿意都会面临着如何管理自己原创的内容被 AI 使用?现在看到有的虚拟主机商家将自动创建llms.txt 作为卖点,我也开始关注llms.txt,llms.txt编写几乎跟 robots。txt没啥区别,不同的地方就是llms.txts 是给 AI 看的,与其抵抗不如加入。

什么是llms.txt

llms.txt 是一个放置在网站根目录下的纯文本文件,向 AI 模型清晰地传达网站内容的使用规则,告诉前来访问的 AI 爬虫需要遵守以下规定。

这个新兴标准由 Answer.AI 的创始人 Jeremy Howard 等 AI 专家推动,主流的 Anthropic(Claude AI)、等重要AI公司的支持。

llms.txt vs. robots.txt;两者有何不同?

我第一眼看到 llms.txt 都会觉得它和 robots.txt 非常相似,语法几乎一样,这么做主要是为了降低学习成本而有意设计的。在核心功能上,它们截然不同。

robots.txt 主要面向传统搜索引擎爬虫(如 Googlebot, Baiduspider 等)。它们的任务是抓取、收录网页,并为搜索结果建立索引。

llms.txt 专门面向大型语言模型(LLM)的 AI 工具(如 anthropic-ai, Google-Extended 等)。它们的任务是获取内容,用于模型训练、回答用户问题等。

robots.txt 主要管理抓取方式,防止服务器过载,以及避免低质量页面(如后台、搜索结果页)被收录。这是一个技术和SEO层面的指令。

llms.txt 主要目的是声明内容使用权,控制数据是否能被用于AI训练、是否需要提供引用等。这是一个版权和策略层面的指令。

如何编写 llms.txt?

编写 llms.txt 非常简单,命名为 llms.txt,然后将写好的 llms.txt上传到网站的根目录,确保可以通过 https://yourdomain.com/llms.txt 访问。

编写与robots.txt几乎一样。

  • User-agent: 指定规则对哪个AI代理生效。* 代表所有代理。
  • Disallow: 禁止代理将指定路径的内容用于其目的(如训练)。留空则代表允许。

最后选择自己想要的策略

策略1:完全开放 允许所有AI模型不受限制地使用您网站的所有内容。

# Welcome all AI models to use site content without restriction.
User-agent: *
Disallow:

策略2:平衡保护 允许AI使用大部分内容,但禁止访问和使用敏感或非公开目录。

# Allow general use, but protect sensitive areas.
User-agent: *
Disallow: /admin/
Disallow: /private-notes/
Disallow: /api-data/

策略3:精英白名单(推荐) 默认禁止所有AI,然后仅对那些承诺提供引用优质 AI 开放权限。这是国外 SEO 提供的最符合 AI 优化的做法。

# Block all by default, then whitelist high-quality AI agents.
User-agent: *
Disallow: /

# Whitelist for Anthropic (Claude)
User-agent: anthropic-ai
Disallow:

# Whitelist for Google AI (Gemini, etc.)
User-agent: Google-Extended
Disallow:

# Whitelist for OpenAI
User-agent: ChatGPT-User
Disallow:

# Whitelist for Perplexity AI
User-agent: PerplexityBot Disallow:

llms.txt 的未来

llms.txt 极有可能成为未来的行业标准。但是主要依赖于AI 公司的自愿遵守,缺乏强制性。一些不规范的公司可能会选择忽略它。其中 Anthropic 不仅在其官方文档网站上部署了 llms.txt 和 llms-full.txt 文件,像主流的 Google (Google-Extended)、OpenAI (ChatGPT-User)、Perplexity AI (PerplexityBot)都在观望或者配合,在提供的资讯中引用信息源就是好的开端

主要有以下几点:

  1. 简单易用:沿用 robots.txt 的语法,几乎没有学习和部署成本。
  2. 需求迫切:以最简单的方式精准地解决了内容创作者与AI公司之间的核心矛盾。
  3. 行业动力:Anthropic这样的头部AI公司率先支持,形成了良好的开端。社区驱动的追踪目录也显示出其强大的生命力。

对于站长,现在就部署 llms.txt 是一个迫不得已技术操作,理解并尊重 AI 与现在主流 AI 达成协作可以帮助网站在即将到来的 AI 浪潮中占据有利位置。

未经允许不得转载:主机格调 » 如何编写 llms.txt?为 AI 抓取内容制定规则,打不过就加入。

评论

9+4=