广州总部电话:020-85564311
20年
互联网应用服务商
广州总部电话:020-85564311
20年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

如何让网站对AI大模型可见:6种有效做法完整指南

发布日期:2026-05-20 08:34:24 浏览次数: 809 来源:Baklib
推荐语
AI搜索流量持续增长,如何让你的网站内容被大模型准确抓取?这份指南提供了六种经过验证的有效做法。

核心内容:
1. 分析AI搜索趋势及网站信息被大模型抓取的现状与痛点
2. 按优先级详解六种让网站对AI可见的核心技术方案
3. 提供实践案例与快速部署建议,多数实现可在一小时内完成
小优 网站建设顾问
专业来源于二十年的积累,用心让我们做到更好!

核心观点

大模型更擅长读干净、结构化的正文;目标是把「最有信息量的内容」以尽量少的噪声交给模型——而不是堆叠未经验证的元数据。

背景:搜索不再是唯一入口

Gartner 曾预测到 2026 年传统搜索量会因 AI 聊天机器人等下降约 25%;后续公开数据也在相近量级波动:2025 年,美国用户的 Google 搜索量同比下降近 20%,而 2024 年 11 月至 2025 年 11 月期间,Google 搜索流量对出版商的影响下降了 33%。

当用户向 AI Chat 提问、把链接丢给豆包、Gemini、ChatGPT,或让 Cursor、VS Code 一类AI 开发平台去抓文档时,模型依赖的是从你站点抽取的信息——这一过程常常是混乱、有损信息、甚至被跳过。

好消息是:Web 上早有机制可缓解——HTTP 内容协商<link>、结构化 Markdown 端点——都不算新奇。新的是:LLM 与 AI 代理给了我们把这套机制接好的理由;多数实现可在一小时以内完成。

首先:检查 robots.txt。若默认配置把 GPTBot、ClaudeBot 等挡在站外,下面所有技巧都无从谈起。原文建议花约十分钟做一次审计。

下文按影响力 / 工作量排序介绍这六条技巧:

优先级一览

#

机制

重要性

工作量

1

/llms.txt

关键

低,静态文件

2

.md 路由

关键

低–中,路由 + 内容

3

HTML <link rel="alternate" type="text/markdown"> + HTTP Link 头

低,模板 + 中间件

4

视觉隐藏的 DOM 提示

低,一个组件

5

/llms-full.txt

低–中

低,静态文件或重定向

6

Accept: text/markdown 内容协商

低–中,服务端逻辑

+

对 AI 相关端点的分析/日志

运维向

1. llms.txt 是什么?为什么值得做?

若你只做清单里的一件事,优先做这个

llms.txt 是放在站点根目录的 Markdown 文件,为 AI 系统提供精选的重要页面地图,可类比 LLM 时代的 robots.txt。该格式由 Answer.AI 的 Jeremy Howard 于 2024 年 9 月提出,规范见 llmstxt.org:通常包含站点名 H1、摘要引用块,以及带注释链接的 H2 分区。

Anthropic、Mintlify、GitBook、Docusaurus、VitePress,以及 Baklib 等网站与社区目录等生态在快速增长,「约 2100+ 站点」已经支持 llms.txt。

示例:Baklib

访问地址: https://www.baklib.com/llms.txt


[object Object][object Object][object Object][object Object]
  • /llms.txt精选链接索引

  • /llms-full.txt整站或整库文档的合并正文,一次抓取、少跳转,适合「单请求吞完整文档集」。

小站可把公开内容拼进一个 Markdown;大站更现实的做法是重定向到 /index.md 或提供代表性子集。规模差异极大:Cloudflare的 llms-full.txt 可达千万 token 量级;亦有项目控制在约 250 KB。文档站可能很合适;营销站或博客可能过度——重定向到 /index.md 也可接受。

Mintlify 的日志分析还发现:llms-full.txt 访问量可达 llms.txt 的 3–4 倍,且 ChatGPT 占相当比例。一种解释是:模型更偏好「一次嵌入完整文档」而非多跳 RAG 跟链接。

👋示例:Baklib

见链接: 

https://www.baklib.com/llms-full.txt


6. 面向 LLM 的「内容协商」是什么?

客户端发送:

Accept:text/markdown, text/html;q=0.9

服务器在同一 URL 上优先返回 Markdown,否则回退 HTML;用 Vary: Accept 让 CDN 分别缓存。这与 HTTP/1.1(1997)以来「同一资源多表示」的机制一致。

Checkly 对 AI 代理行为的分析 指出:Claude Code、Cursor 等已常把 Accept: text/markdown 作为偏好类型。

与第 3 节的 HTTP Link 头组合,可在单一处理器里覆盖多种客户端(原文含完整 TypeScript 示例)。

与「提示类」技巧的本质区别

内容协商不要求客户端掌握站点私有约定:只要发对头,符合规范的服务器就返回 Markdown。作者认为:若赌五年后仍存活的机制,更可能是这条——因为它依赖的是 HTTP 本身,而非新文件格式共识。

不过...

Google 将「对爬虫呈现与用户不同内容」定义为 cloaking。原文强调:同一 URL、同一信息内容、仅表示形式不同,并用 Vary: Accept 声明,属于 HTTP 常规用法;与「给爬虫另一篇文章」不同。类比:Accept: application/json 与 Accept: text/html 共存多年,不会被称为 REST API 在伪装。

那么,什么对「AI SEO」技巧不管用?

团队在 30+ 博文、GitHub 与提案里筛过一轮,下列 8 类要么无证据,要么具有误导性

  1. 来历不明的「AI 专用」<meta> 类标签
    无规范、无提案来源、也找不到哪个 AI 产品会读;却出现在多篇「针对 AI 优化」的转载文中。

  2. 通过 llmsmetatags.org 提交 WHATWG 的那类 meta 扩展
    相关 HTML issue #11548 已以「不计划采纳」关闭;实际实现几乎仅见于提案方自家网站。

  3. **/.well-known/ai.txt 与 /ai.txt
    存在多份彼此竞争的提案,
    缺乏有意义的统一采用**。

  4. HTML 注释 <!-- … -->
    多数 LLM 解析路径会剥离注释;ChatGPT / Claude / Perplexity 常基于渲染后文本,而非原始 HTML 源。没有爬虫文档把「读注释做发现」当作可靠机制。

  5. 人类/AI 切换按钮
    若已提供 .md 路由与内容协商,按钮对不会点击的代理基本是装饰。

  6. 按 User-Agent 嗅探并自动给 AI 爬虫返回 Markdown
    这是按「访客是谁」而非「请求什么表示」区分内容,属于 cloaking 风险区;合规替代方案是 **Accept: text/markdown 协商**,由客户端显式声明格式偏好。

  7. 单独的「给 AI 助手看的说明页」
    没有证据表明爬虫或检索系统会区别对待;好的 /llms.txt 与干净 Markdown 路由已能覆盖需求。

  8. 把产品数据只放在 Schema.org / JSON-LD 里
    SearchVIU 等对照实验中,ChatGPT、Claude、Perplexity、Gemini、Copilot 等未必消费 JSON-LD 中的独占信息;业界报道也指出部分产品把结构化数据当普通文本处理。例外:微软 Copilot 可能继承 Bing 对 schema 的理解(原文给 SearchVIU、SERoundtable、Search Engine Land 等链接)。结论:不必拆掉已有结构化数据,但别指望单靠它就能提升「被 LLM 直接看见」的概率。

共性:许多方案在重复解决 HTTP 与标准 Web 机制已经能解决的问题;模式往往是某人发明新文件或 meta、写博文、其它博文互相引用——却没人验证是否有 AI 系统真的读取。

普林斯顿与 IIT 德里等在 KDD 2024 的 GEO 基础研究 也支持这一方向:在 1 万条查询上测试九种内容优化策略,有效的是直接引用、统计数据、权威来源等可见正文增强;而非模型读不到的元数据。(原文还半开玩笑:本段引用权威研究本身也是一种 GEO 技巧。)


如何知道「有没有用」?

不测就不知道。

Cloudflare 2025 Radar 等显示 AI 相关抓取在增长,但「爬虫流量」不等于「你的内容被正确引用」。应对 .md 端点、/llms.txt/llms-full.txt 做服务端埋点:按 User-Agent 区分 AI 爬虫与普通访问,按 Referer 主机名捕捉来自 chatgpt.comclaude.aiperplexity.ai 的流量——这是记录谁拉了什么,不是按访客改内容,故不构成 cloaking。

const url = new URL(request.url);if(url.pathname.endsWith('.md')) {  const ua = request.headers.get('user-agent') ?? '';  const ref = request.headers.get('referer') ?? '';  analytics.track('markdown_fetch', { ua, ref, path: url.pathname });}

注意:传统前端分析脚本对 AI 爬虫常无效(不执行 JS),需要服务器日志或边缘日志中的原始 UA。


上线顺序建议

  1. 审计 robots.txt,勿误伤 AI 爬虫。

  2. 添加根路径 /llms.txt(静态 Markdown,约五分钟)。

  3. 为各页面提供 .md 路由(一切指针的最终落点)。

  4. 加 <link rel="alternate" type="text/markdown" …> 与 HTTP Link 头。

  5. 实现 Accept: text/markdown 内容协商(基础设施级,值得在前后置就绪后做)。

  6. 对端点做分析与监测。

目标不是「操纵 AI」,而是像多年坚持语义化 HTML 一样,让内容对语言模型与代理也可读;其中大部分其实也是早该做好的 Web 卫生习惯


常见问题(FAQ)

必须6条建议全上吗?

可从 **/llms.txt + .md 路由`** 开始,覆盖最常见访问模式,其余按需迭代。

会伤害 Google SEO 吗?

原文称:rel="alternate"、已注册 MIME、带 Vary: Accept 的协商均属标准 HTTP;他们在 evilmartians.com 上运行数月未观察到明显排名异常(个体站点仍建议自行监测)。

ChatGPT / Claude / Perplexity 会自动爬 llms.txt 吗?

尚未成为厂商正式承诺的行为;当前价值主要在人类或工具把 URL 交给模型的路径。若未来自动爬取跟进,属于额外收益。

如何衡量效果?

见上文「如何知道有没有用」:服务端埋点 + UA + Referer。


Baklib 已经做到了哪些部分?

  • Baklib 作为 AI Ready内容管理平台,已从底层 MCP 设计到上层体验应用都贯穿大模支持。

  • Baklib 的站点都默支持 llms.txt 和 llms-full.txt

  • Baklib 的每篇文章都支持 .md 格式,而且支持自定义输出(只需要给变量指定属性: "to_markdown": true)

优网科技,优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)等一系列互联网应用服务。


我要投稿

姓名

文章链接

提交即表示你已阅读并同意《个人信息保护声明》

专属顾问 专属顾问
扫码咨询您的优网专属顾问!
专属顾问
马上咨询