如何让网站对AI大模型可见：6种有效做法完整指南

核心观点

大模型更擅长读干净、结构化的正文；目标是把「最有信息量的内容」以尽量少的噪声交给模型——而不是堆叠未经验证的元数据。

背景：搜索不再是唯一入口

Gartner 曾预测到 2026 年传统搜索量会因 AI 聊天机器人等下降约 25%；后续公开数据也在相近量级波动：2025 年，美国用户的 Google 搜索量同比下降近 20%，而 2024 年 11 月至 2025 年 11 月期间，Google 搜索流量对出版商的影响下降了 33%。

当用户向 AI Chat 提问、把链接丢给豆包、Gemini、ChatGPT，或让 Cursor、VS Code 一类AI 开发平台去抓文档时，模型依赖的是从你站点抽取的信息——这一过程常常是混乱、有损信息、甚至被跳过。

好消息是：Web 上早有机制可缓解——HTTP 内容协商、<link>、结构化 Markdown 端点——都不算新奇。新的是：LLM 与 AI 代理给了我们把这套机制接好的理由；多数实现可在一小时以内完成。

首先：检查 robots.txt。若默认配置把 GPTBot、ClaudeBot 等挡在站外，下面所有技巧都无从谈起。原文建议花约十分钟做一次审计。

下文按影响力 / 工作量排序介绍这六条技巧：

优先级一览

#	机制	重要性	工作量
1	`/llms.txt`	关键	低，静态文件
2	`.md` 路由	关键	低–中，路由 + 内容
3	HTML `<link rel="alternate" type="text/markdown">` + HTTP `Link` 头	高	低，模板 + 中间件
4	视觉隐藏的 DOM 提示	中	低，一个组件
5	`/llms-full.txt`	低–中	低，静态文件或重定向
6	`Accept: text/markdown` 内容协商	高	低–中，服务端逻辑
+	对 AI 相关端点的分析/日志	运维向	中

1. `llms.txt` 是什么？为什么值得做？

若你只做清单里的一件事，优先做这个。

llms.txt 是放在站点根目录的 Markdown 文件，为 AI 系统提供精选的重要页面地图，可类比 LLM 时代的 robots.txt。该格式由 Answer.AI 的 Jeremy Howard 于 2024 年 9 月提出，规范见 llmstxt.org：通常包含站点名 H1、摘要引用块，以及带注释链接的 H2 分区。

Anthropic、Mintlify、GitBook、Docusaurus、VitePress，以及 Baklib 等网站与社区目录等生态在快速增长，「约 2100+ 站点」已经支持 llms.txt。

示例：Baklib

访问地址： https://www.baklib.com/llms.txt

[object Object][object Object][object Object][object Object]

/llms.txt：精选链接索引。
/llms-full.txt：整站或整库文档的合并正文，一次抓取、少跳转，适合「单请求吞完整文档集」。

小站可把公开内容拼进一个 Markdown；大站更现实的做法是重定向到 /index.md 或提供代表性子集。规模差异极大：Cloudflare的 llms-full.txt 可达千万 token 量级；亦有项目控制在约 250 KB。文档站可能很合适；营销站或博客可能过度——重定向到 /index.md 也可接受。

Mintlify 的日志分析还发现：llms-full.txt 访问量可达 llms.txt 的 3–4 倍，且 ChatGPT 占相当比例。一种解释是：模型更偏好「一次嵌入完整文档」而非多跳 RAG 跟链接。

👋示例：Baklib

见链接：

https://www.baklib.com/llms-full.txt

6. 面向 LLM 的「内容协商」是什么？

客户端发送：

Accept:text/markdown, text/html;q=0.9

服务器在同一 URL 上优先返回 Markdown，否则回退 HTML；用 Vary: Accept 让 CDN 分别缓存。这与 HTTP/1.1（1997）以来「同一资源多表示」的机制一致。

Checkly 对 AI 代理行为的分析指出：Claude Code、Cursor 等已常把 Accept: text/markdown 作为偏好类型。

与第 3 节的 HTTP Link 头组合，可在单一处理器里覆盖多种客户端（原文含完整 TypeScript 示例）。

与「提示类」技巧的本质区别

内容协商不要求客户端掌握站点私有约定：只要发对头，符合规范的服务器就返回 Markdown。作者认为：若赌五年后仍存活的机制，更可能是这条——因为它依赖的是 HTTP 本身，而非新文件格式共识。

不过...

Google 将「对爬虫呈现与用户不同内容」定义为 cloaking。原文强调：同一 URL、同一信息内容、仅表示形式不同，并用 Vary: Accept 声明，属于 HTTP 常规用法；与「给爬虫另一篇文章」不同。类比：Accept: application/json 与 Accept: text/html 共存多年，不会被称为 REST API 在伪装。

那么，什么对「AI SEO」技巧不管用？

团队在 30+ 博文、GitHub 与提案里筛过一轮，下列 8 类要么无证据，要么具有误导性：

来历不明的「AI 专用」<meta> 类标签
无规范、无提案来源、也找不到哪个 AI 产品会读；却出现在多篇「针对 AI 优化」的转载文中。
通过 llmsmetatags.org 提交 WHATWG 的那类 meta 扩展
相关 HTML issue #11548 已以「不计划采纳」关闭；实际实现几乎仅见于提案方自家网站。
**/.well-known/ai.txt 与 /ai.txt
存在多份彼此竞争的提案，缺乏有意义的统一采用**。
HTML 注释 
多数 LLM 解析路径会剥离注释；ChatGPT / Claude / Perplexity 常基于渲染后文本，而非原始 HTML 源。没有爬虫文档把「读注释做发现」当作可靠机制。
人类/AI 切换按钮
若已提供 .md 路由与内容协商，按钮对不会点击的代理基本是装饰。
按 User-Agent 嗅探并自动给 AI 爬虫返回 Markdown
这是按「访客是谁」而非「请求什么表示」区分内容，属于 cloaking 风险区；合规替代方案是 **Accept: text/markdown 协商**，由客户端显式声明格式偏好。
单独的「给 AI 助手看的说明页」
没有证据表明爬虫或检索系统会区别对待；好的 /llms.txt 与干净 Markdown 路由已能覆盖需求。
把产品数据只放在 Schema.org / JSON-LD 里
SearchVIU 等对照实验中，ChatGPT、Claude、Perplexity、Gemini、Copilot 等未必消费 JSON-LD 中的独占信息；业界报道也指出部分产品把结构化数据当普通文本处理。例外：微软 Copilot 可能继承 Bing 对 schema 的理解（原文给 SearchVIU、SERoundtable、Search Engine Land 等链接）。结论：不必拆掉已有结构化数据，但别指望单靠它就能提升「被 LLM 直接看见」的概率。

共性：许多方案在重复解决 HTTP 与标准 Web 机制已经能解决的问题；模式往往是某人发明新文件或 meta、写博文、其它博文互相引用——却没人验证是否有 AI 系统真的读取。

普林斯顿与 IIT 德里等在 KDD 2024 的 GEO 基础研究也支持这一方向：在 1 万条查询上测试九种内容优化策略，有效的是直接引用、统计数据、权威来源等可见正文增强；而非模型读不到的元数据。（原文还半开玩笑：本段引用权威研究本身也是一种 GEO 技巧。）

如何知道「有没有用」？

不测就不知道。

Cloudflare 2025 Radar 等显示 AI 相关抓取在增长，但「爬虫流量」不等于「你的内容被正确引用」。应对 .md 端点、/llms.txt、/llms-full.txt 做服务端埋点：按 User-Agent 区分 AI 爬虫与普通访问，按 Referer 主机名捕捉来自 chatgpt.com、claude.ai、perplexity.ai 的流量——这是记录谁拉了什么，不是按访客改内容，故不构成 cloaking。

const url = new URL(request.url);if(url.pathname.endsWith('.md')) {  const ua = request.headers.get('user-agent') ?? '';  const ref = request.headers.get('referer') ?? '';  analytics.track('markdown_fetch', { ua, ref, path: url.pathname });}

注意：传统前端分析脚本对 AI 爬虫常无效（不执行 JS），需要服务器日志或边缘日志中的原始 UA。

上线顺序建议

审计 robots.txt，勿误伤 AI 爬虫。
添加根路径 /llms.txt（静态 Markdown，约五分钟）。
为各页面提供 .md 路由（一切指针的最终落点）。
加 <link rel="alternate" type="text/markdown" …> 与 HTTP Link 头。
实现 Accept: text/markdown 内容协商（基础设施级，值得在前后置就绪后做）。
对端点做分析与监测。

目标不是「操纵 AI」，而是像多年坚持语义化 HTML 一样，让内容对语言模型与代理也可读；其中大部分其实也是早该做好的 Web 卫生习惯。

常见问题（FAQ）

必须6条建议全上吗？

可从 **/llms.txt + .md 路由`** 开始，覆盖最常见访问模式，其余按需迭代。

会伤害 Google SEO 吗？

原文称：rel="alternate"、已注册 MIME、带 Vary: Accept 的协商均属标准 HTTP；他们在 evilmartians.com 上运行数月未观察到明显排名异常（个体站点仍建议自行监测）。

ChatGPT / Claude / Perplexity 会自动爬 `llms.txt` 吗？

尚未成为厂商正式承诺的行为；当前价值主要在人类或工具把 URL 交给模型的路径。若未来自动爬取跟进，属于额外收益。

如何衡量效果？

见上文「如何知道有没有用」：服务端埋点 + UA + Referer。

Baklib 已经做到了哪些部分？

Baklib 作为 AI Ready内容管理平台，已从底层 MCP 设计到上层体验应用都贯穿大模支持。
Baklib 的站点都默支持 llms.txt 和 llms-full.txt
Baklib 的每篇文章都支持 .md 格式，而且支持自定义输出（只需要给变量指定属性： "to_markdown": true）

优网科技，优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念，诚信务实的服务了近万家客户，成为众多世界500强、集团和上市公司的长期合作伙伴！

优网科技成立于2001年，擅长网站建设、网站与各类业务系统深度整合，致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设（品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用（手机站、APP开发）、微信定制开发（微信官网、微信商城、企业微信）等一系列互联网应用服务。

优网知识库

探索行业前沿，共享知识宝库

1. `llms.txt` 是什么？为什么值得做？

6. 面向 LLM 的「内容协商」是什么？

不过...

必须6条建议全上吗？

会伤害 Google SEO 吗？

ChatGPT / Claude / Perplexity 会自动爬 `llms.txt` 吗？

如何衡量效果？

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设

优网知识库

探索行业前沿，共享知识宝库

如何让网站对AI大模型可见：6种有效做法完整指南

1. llms.txt 是什么？为什么值得做？

6. 面向 LLM 的「内容协商」是什么？

不过...

必须6条建议全上吗？

会伤害 Google SEO 吗？

ChatGPT / Claude / Perplexity 会自动爬 llms.txt 吗？

如何衡量效果？

企微云

客户池

微信小名片

网站建设

优网科技

小名片

53AI

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设

1. `llms.txt` 是什么？为什么值得做？

ChatGPT / Claude / Perplexity 会自动爬 `llms.txt` 吗？