核心观点
大模型更擅长读干净、结构化的正文;目标是把「最有信息量的内容」以尽量少的噪声交给模型——而不是堆叠未经验证的元数据。
背景:搜索不再是唯一入口
Gartner 曾预测到 2026 年传统搜索量会因 AI 聊天机器人等下降约 25%;后续公开数据也在相近量级波动:2025 年,美国用户的 Google 搜索量同比下降近 20%,而 2024 年 11 月至 2025 年 11 月期间,Google 搜索流量对出版商的影响下降了 33%。
当用户向 AI Chat 提问、把链接丢给豆包、Gemini、ChatGPT,或让 Cursor、VS Code 一类AI 开发平台去抓文档时,模型依赖的是从你站点抽取的信息——这一过程常常是混乱、有损信息、甚至被跳过。
好消息是:Web 上早有机制可缓解——HTTP 内容协商、<link>、结构化 Markdown 端点——都不算新奇。新的是:LLM 与 AI 代理给了我们把这套机制接好的理由;多数实现可在一小时以内完成。
首先:检查 robots.txt。若默认配置把 GPTBot、ClaudeBot 等挡在站外,下面所有技巧都无从谈起。原文建议花约十分钟做一次审计。
下文按影响力 / 工作量排序介绍这六条技巧:
优先级一览
# | 机制 | 重要性 | 工作量 |
|---|---|---|---|
1 |
| 关键 | 低,静态文件 |
2 |
| 关键 | 低–中,路由 + 内容 |
3 | HTML | 高 | 低,模板 + 中间件 |
4 | 视觉隐藏的 DOM 提示 | 中 | 低,一个组件 |
5 |
| 低–中 | 低,静态文件或重定向 |
6 |
| 高 | 低–中,服务端逻辑 |
+ | 对 AI 相关端点的分析/日志 | 运维向 | 中 |
1. llms.txt 是什么?为什么值得做?
若你只做清单里的一件事,优先做这个。
llms.txt 是放在站点根目录的 Markdown 文件,为 AI 系统提供精选的重要页面地图,可类比 LLM 时代的 robots.txt。该格式由 Answer.AI 的 Jeremy Howard 于 2024 年 9 月提出,规范见 llmstxt.org:通常包含站点名 H1、摘要引用块,以及带注释链接的 H2 分区。
Anthropic、Mintlify、GitBook、Docusaurus、VitePress,以及 Baklib 等网站与社区目录等生态在快速增长,「约 2100+ 站点」已经支持 llms.txt。
示例:Baklib
访问地址: https://www.baklib.com/llms.txt
[object Object][object Object][object Object][object Object]
/llms.txt:精选链接索引。/llms-full.txt:整站或整库文档的合并正文,一次抓取、少跳转,适合「单请求吞完整文档集」。
小站可把公开内容拼进一个 Markdown;大站更现实的做法是重定向到 /index.md 或提供代表性子集。规模差异极大:Cloudflare的 llms-full.txt 可达千万 token 量级;亦有项目控制在约 250 KB。文档站可能很合适;营销站或博客可能过度——重定向到 /index.md 也可接受。
Mintlify 的日志分析还发现:llms-full.txt 访问量可达 llms.txt 的 3–4 倍,且 ChatGPT 占相当比例。一种解释是:模型更偏好「一次嵌入完整文档」而非多跳 RAG 跟链接。
👋示例:Baklib
见链接:
https://www.baklib.com/llms-full.txt
6. 面向 LLM 的「内容协商」是什么?
客户端发送:
Accept:text/markdown, text/html;q=0.9
服务器在同一 URL 上优先返回 Markdown,否则回退 HTML;用 Vary: Accept 让 CDN 分别缓存。这与 HTTP/1.1(1997)以来「同一资源多表示」的机制一致。
Checkly 对 AI 代理行为的分析 指出:Claude Code、Cursor 等已常把 Accept: text/markdown 作为偏好类型。
与第 3 节的 HTTP Link 头组合,可在单一处理器里覆盖多种客户端(原文含完整 TypeScript 示例)。
与「提示类」技巧的本质区别
内容协商不要求客户端掌握站点私有约定:只要发对头,符合规范的服务器就返回 Markdown。作者认为:若赌五年后仍存活的机制,更可能是这条——因为它依赖的是 HTTP 本身,而非新文件格式共识。
不过...
Google 将「对爬虫呈现与用户不同内容」定义为 cloaking。原文强调:同一 URL、同一信息内容、仅表示形式不同,并用 Vary: Accept 声明,属于 HTTP 常规用法;与「给爬虫另一篇文章」不同。类比:Accept: application/json 与 Accept: text/html 共存多年,不会被称为 REST API 在伪装。
那么,什么对「AI SEO」技巧不管用?
团队在 30+ 博文、GitHub 与提案里筛过一轮,下列 8 类要么无证据,要么具有误导性:
来历不明的「AI 专用」
<meta>类标签
无规范、无提案来源、也找不到哪个 AI 产品会读;却出现在多篇「针对 AI 优化」的转载文中。通过 llmsmetatags.org 提交 WHATWG 的那类
meta扩展
相关 HTML issue #11548 已以「不计划采纳」关闭;实际实现几乎仅见于提案方自家网站。**/.well-known/ai.txt与/ai.txt
存在多份彼此竞争的提案,缺乏有意义的统一采用**。HTML 注释
<!-- … -->
多数 LLM 解析路径会剥离注释;ChatGPT / Claude / Perplexity 常基于渲染后文本,而非原始 HTML 源。没有爬虫文档把「读注释做发现」当作可靠机制。人类/AI 切换按钮
若已提供.md路由与内容协商,按钮对不会点击的代理基本是装饰。按 User-Agent 嗅探并自动给 AI 爬虫返回 Markdown
这是按「访客是谁」而非「请求什么表示」区分内容,属于 cloaking 风险区;合规替代方案是**Accept: text/markdown协商**,由客户端显式声明格式偏好。单独的「给 AI 助手看的说明页」
没有证据表明爬虫或检索系统会区别对待;好的/llms.txt与干净 Markdown 路由已能覆盖需求。把产品数据只放在 Schema.org / JSON-LD 里
SearchVIU 等对照实验中,ChatGPT、Claude、Perplexity、Gemini、Copilot 等未必消费 JSON-LD 中的独占信息;业界报道也指出部分产品把结构化数据当普通文本处理。例外:微软 Copilot 可能继承 Bing 对 schema 的理解(原文给 SearchVIU、SERoundtable、Search Engine Land 等链接)。结论:不必拆掉已有结构化数据,但别指望单靠它就能提升「被 LLM 直接看见」的概率。
共性:许多方案在重复解决 HTTP 与标准 Web 机制已经能解决的问题;模式往往是某人发明新文件或 meta、写博文、其它博文互相引用——却没人验证是否有 AI 系统真的读取。
普林斯顿与 IIT 德里等在 KDD 2024 的 GEO 基础研究 也支持这一方向:在 1 万条查询上测试九种内容优化策略,有效的是直接引用、统计数据、权威来源等可见正文增强;而非模型读不到的元数据。(原文还半开玩笑:本段引用权威研究本身也是一种 GEO 技巧。)
如何知道「有没有用」?
不测就不知道。
Cloudflare 2025 Radar 等显示 AI 相关抓取在增长,但「爬虫流量」不等于「你的内容被正确引用」。应对 .md 端点、/llms.txt、/llms-full.txt 做服务端埋点:按 User-Agent 区分 AI 爬虫与普通访问,按 Referer 主机名捕捉来自 chatgpt.com、claude.ai、perplexity.ai 的流量——这是记录谁拉了什么,不是按访客改内容,故不构成 cloaking。
const url = new URL(request.url);if(url.pathname.endsWith('.md')) { const ua = request.headers.get('user-agent') ?? ''; const ref = request.headers.get('referer') ?? ''; analytics.track('markdown_fetch', { ua, ref, path: url.pathname });}注意:传统前端分析脚本对 AI 爬虫常无效(不执行 JS),需要服务器日志或边缘日志中的原始 UA。
上线顺序建议
审计
robots.txt,勿误伤 AI 爬虫。添加根路径
/llms.txt(静态 Markdown,约五分钟)。为各页面提供
.md路由(一切指针的最终落点)。加
<link rel="alternate" type="text/markdown" …>与 HTTPLink头。实现
Accept: text/markdown内容协商(基础设施级,值得在前后置就绪后做)。对端点做分析与监测。
目标不是「操纵 AI」,而是像多年坚持语义化 HTML 一样,让内容对语言模型与代理也可读;其中大部分其实也是早该做好的 Web 卫生习惯。
常见问题(FAQ)
必须6条建议全上吗?
可从
**/llms.txt+.md路由`** 开始,覆盖最常见访问模式,其余按需迭代。
会伤害 Google SEO 吗?
原文称:
rel="alternate"、已注册 MIME、带Vary: Accept的协商均属标准 HTTP;他们在 evilmartians.com 上运行数月未观察到明显排名异常(个体站点仍建议自行监测)。
ChatGPT / Claude / Perplexity 会自动爬 llms.txt 吗?
尚未成为厂商正式承诺的行为;当前价值主要在人类或工具把 URL 交给模型的路径。若未来自动爬取跟进,属于额外收益。
如何衡量效果?
见上文「如何知道有没有用」:服务端埋点 + UA + Referer。
Baklib 已经做到了哪些部分?
Baklib 作为 AI Ready内容管理平台,已从底层 MCP 设计到上层体验应用都贯穿大模支持。
Baklib 的站点都默支持 llms.txt 和 llms-full.txt
Baklib 的每篇文章都支持 .md 格式,而且支持自定义输出(只需要给变量指定属性: "to_markdown": true)

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!
优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用(手机站、APP开发)、微信定制开发(微信官网、微信商城、企业微信)等一系列互联网应用服务。
公安局备案号:
