Robots.txt配置：新手如何写好这份网站通行证？

Google ·SEO

这可能很多SEO伙伴才刚刚接触Robots协议，也不了解Robots是什么？有什么作用？

你可以简单理解Robots.txt是网站的门卫，指定引搜索引擎的爬虫能抓取网站的哪些区域。比如我们在协议文件里屏蔽/admin/，那么谷歌和百度就不能来收录我们的网站。

也可以假设，如果我们让爬虫去重点抓取我们网站的主要页面，那么他们收录的概率就会大幅度提升。

在这里我会专门帮助大家整理与Robots全面的相关知识，对于任何行业都适用，如果有不懂的地方，可以通过公众号私信联系到我。

你的网站通行证，

别让搜索引擎“走错门”

Google SEO

这篇文章将从三个核心板块展开：

robots.txt的本质：搜索引擎蜘蛛眼中的“网站通行证”；
常见误屏蔽场景：新手最容易踩的5个坑；
SEO策略联动：如何用robots.txt提升抓取效率？

我们不会讲复杂代码，而是用生活化类比帮你理解规则背后的逻辑。比如，把爬虫比作快递员，robots.txt就是派送地图，优先抓取高权重区域（如首页、产品页）。

本公众号精选干货内容分享，接触SEO的伙伴，有需要都可以关注下下哦~

一、什么是robots.txt？

它是网站的“通行证地图”，告诉搜索引擎哪里能去、哪里不能进
三个核心指令：

快递员名字（哪个搜索引擎要遵守规则）
禁止区域（哪些页面不让抓取）
推荐路线（告诉搜索引擎优先抓哪里）

它的局限性：只能控制抓取权限

二、新手最容易犯的5个错误

文件放错位置：必须放在网站根目录
漏写斜杠符号：屏蔽整个文件夹必须加“/”
乱用通配符：可能误封重要页面
忽视多语言站点：每个语言版本要单独设置规则
忘记移动端适配：手机版页面也要声明规则

三、如何用robots.txt提升抓取效率？

搜索引擎每天只花“固定工时”抓你的网站。
屏蔽垃圾页面（比如用户登录页），让蜘蛛集中抓产品页。
动态页面（带?id=123的链接）尽量屏蔽，除非特别重要。

四、工具使用和检查方法

Google自带检测工具：一键排查规则冲突
手动检查三步走：

确认文件位置
测试是否能正常打开
模拟搜索引擎抓取测试

误操作后的补救措施：删除错误规则+提交更新提醒

五、搞砸了怎么紧急补救？

第一步：立刻删掉写错的规则。
第二步：重新提交网站地图。
第三步：检查Google后台的“覆盖率报告”。

六、多语言站/动态站怎么配置？

多语言站：每个语言版本单独写规则（比如英文站和中文站分开）。
动态站：屏蔽带参数的链接，但保留有用的（比如商品颜色筛选页）

七、让蜘蛛“少走弯路”的秘诀

必须屏蔽的三类页面：

站内搜索结果页、用户后台、过期促销页。

检查蜘蛛工作报表（Google后台的“抓取统计”）。

八、和网站地图（Sitemap）打配合

网站地图的作用：直接告诉蜘蛛“这些页面最重要”。
怎么写？一行代码告诉蜘蛛地图在哪。

九、百度与Google规则差异

快递员名字不同：要分别写明百度/Google的规则
允许指令的兼容性：百度可能不认某些高级写法
文件大小限制：百度要求更严格

十、未来要注意的3个变化

搜索引擎越来越“聪明”，可能绕过你的规则。
敏感内容要加双重保险（比如密码+屏蔽规则）。
每季度检查一次规则（尤其是网站改版后）

十一、新手三步走行动清单

第一天：创建文件，屏蔽后台和搜索页。
第一周：加网站地图，测试规则是否生效。
每个月：清理过期规则。

十二、你最关心的7个问题

规则改了多久生效？（Google最快1天，百度等1周）
robots文件屏蔽了页面，为什么还能搜到？
手机版规则怎么写？
网站有中文站和英文站怎么办？
网站动态链接屏蔽了怎么办？
robots规则冲突了听谁的？
robots文件被黑客改了怎么办？

Robots.txt的本质

Search Engine Optimization

关键词：User-agent（搜索引擎蜘蛛名称）、Sitemap（网站地图链接）

Vol.1

什么是robots.txt？

robots.txt是一个纯文本文件，存放在网站根目录下（如domain.com/robots.txt），它的作用是向搜索引擎蜘蛛（如Googlebot、Baiduspider）声明哪些页面可以被抓取，哪些需要禁止访问。

生活化类比：你可以把robots.txt想象成一份“派送地图”。假设你的网站是一座大型商场，搜索引擎蜘蛛就是快递员，robots.txt的作用是告诉快递员：“哪些店铺可以进去送货（允许抓取），哪些仓库禁止进入（禁止抓取）”。
核心价值：通过合理配置这份“地图”，你可以让蜘蛛高效抓取高价值页面（如产品页、博客），同时屏蔽低价值区域（如后台目录、测试页面）。

Vol.2

robots.txt的三大核心指令

User-agent：指定规则适用的搜索引擎蜘蛛名称。例如：

User-agent: Googlebot # 仅对Google蜘蛛生效

User-agent: * # 对所有蜘蛛生效

Disallow/Allow：声明禁止或允许访问的路径。例如：

Disallow: /admin/ # 禁止抓取后台目录

Allow: /admin/images/ # 允许抓取后台目录下的图片

Sitemap：提供网站地图链接，帮助蜘蛛快速发现核心页面。例如：

Sitemap: https://example.com/sitemap.xml

Vol.3

robots.txt的局限性

无法彻底阻止索引：即使屏蔽某个页面，如果其他网站链接到它，搜索引擎仍可能将其编入索引（但不会显示摘要）。
不控制权重传递：robots.txt仅控制抓取权限，不影响页面权重分配（需配合nofollow标签）。

#2 新手必看

5大误常见错误调整

关键词：通配符滥用、文件位置错误、斜杠陷阱

Vol.1

场景1：文件命名与存放错误

错误案例：

将文件命名为robot.txt（少一个字母s）；
将文件存放在子目录（如/blog/robots.txt），而非根目录。

后果：搜索引擎无法识别规则，导致全站抓取失控。

正确操作：

文件名必须为robots.txt；
存放路径为domain.com/robots.txt。

Vol.2

场景2：通配符滥用导致全站屏蔽

错误写法：

Disallow: /*?* # 屏蔽所有含问号的URL

风险：可能误封重要页面（如动态生成的产品详情页）。

正确操作：精准限制参数范围，例如：

Disallow: /*?sort=* # 仅屏蔽排序参数页

Allow: /product?color=* # 允许颜色筛选页

Vol.3

场景3：目录屏蔽的斜杠陷阱

错误写法：

Disallow: /admin # 仅屏蔽/admin页面，不屏蔽子目录

后果：/admin/login/等子目录仍可被抓取。

正确操作：精准限制参数范围，例如：

Disallow: /admin/ # 屏蔽整个目录及子目录

Vol.4

场景4：多语言站点的规则混淆

错误写法：

Disallow: /zh/ # 试图屏蔽中文子站

风险：可能误封重要页面（如动态生成的产品详情页）。

正确操作：精准限制参数范围，例如：

为每个子域名（如zh.domain.com）单独配置robots.txt；
主站规则仅控制主域名路径。

Disallow: /*?sort=* # 仅屏蔽排序参数页

Allow: /product?color=* # 允许颜色筛选页

Vol.5

场景5：忽略移动端适配规则

错误案例：仅配置PC端规则，未声明移动端蜘蛛（如Googlebot-Mobile）。

后果：移动端页面抓取优先级降低。

正确操作：

User-agent: Googlebot-Mobile

Disallow: /mobile-test/ # 屏蔽移动端测试目录

#3 SEO策略联动

用robots.txt提升抓取效率的底层逻辑

关键词：爬虫预算、动态URL屏蔽、核心页面抓取

Vol.1

底层逻辑1：爬虫预算优化

什么是爬虫预算？ 搜索引擎每天分配给网站的抓取资源是有限的。如果蜘蛛花费大量时间抓取低价值页面（如分页、过滤页），核心页面（如产品页）的抓取频率会降低。

操作公式：

屏蔽低价值页面 → 释放爬虫预算 → 提升核心页面抓取频率 → 加速索引与排名

实战配置：

Disallow: /tag/ # 屏蔽标签页

Disallow: /mobile-test/ # 屏蔽移动端测试目录

Vol.2

底层逻辑2：动态URL的精准控制

动态URL的典型特征：含参数（如?id=123）、会话ID（如?session=abc）。

风险：被搜索引擎视为重复内容，稀释主页面权重。

解决方案：

Disallow: /*? # 屏蔽所有带参数的URL

Allow: /*?utm_* # 允许含UTM参数的页面（用于广告跟踪）

Vol.3

底层逻辑3：核心页面抓取引导

策略：通过Sitemap声明高优先级页面，例如：

Sitemap: https://example.com/product-sitemap.xml

Sitemap: https://example.com/blog-sitemap.xml

原理：Sitemap像“VIP通道”，直接向蜘蛛推荐重要内容。

#4 工具或手动检查：

如何验证规则设置是否正确？

关键词：Google Search Console、robots.txt测试工具、模拟抓取

Vol.1

Google Search Console测试工具

作用：实时检测规则冲突（如Allow与Disallow矛盾）、验证蜘蛛抓取权限（如图：）。

操作步骤：

登录Google Search Console → 选择目标网站资源 → 点击“设置” → 点击抓取分类下robots.txt旁边的“打开报告” → 点击“robots.txt测试工具”；

优势：

无需编码基础，可视化界面直观展示阻断原因；
支持快速定位规则错误（如通配符覆盖范围过广）

Vol.2

纯文本验证方法

手动验证文件可读性：浏览器访问domain.com/robots.txt，确认文件内容正常显示。如图：

常见错误包括：

文件未放置在根目录（如误存于/public/robots.txt）；
文件名拼写错误（如robot.txt）。

模拟蜘蛛抓取：使用curl命令模拟蜘蛛行为：

curl -A "Googlebot" http://domain.com/admin/

#5 失误修复

误屏蔽后的修复流程：

关键词：规则修正、Sitemap提交、覆盖率监控

Vol.1

即时生效操作

删除错误规则：例如误屏蔽/product/目录，需删除Disallow: /product/；
提交Sitemap：通过Google Search Console重新提交sitemap文件，加速搜索引擎重新抓取（见4.1图）。

Vol.2

长期监控策略

覆盖率报告分析：

进入Google Search Console → “覆盖率” → 查看“已拦截”页面列表；
若发现核心页面被误封（如产品页、博客），需优先调整规则。

日志文件监控：

通过服务器日志分析蜘蛛抓取频次（如Googlebot访问/admin/的次数）；
若蜘蛛频繁尝试抓取屏蔽页面，需核对规则是否遗漏变体路径（如/admin与/Admin/大小写差异）。

#6 特殊网站情况

多语言站与动态网站的进阶配置

关键词：子域名独立配置、参数化URL屏蔽

Vol.1

多语言子域名的独立规则

场景：英文主站（domain.com）与中文子站（zh.domain.com）需独立配置robots.txt：

User-agent: Googlebot-Mobile

Disallow: /mobile-test/ # 屏蔽移动端测试目录

原理：子域名被视为独立站点，需单独设置文件路径。

Vol.2

多语言子域名的独立规则

参数化风险：过滤器页面（如/product?color=red）易被视为重复内容，稀释主页面权重。

通配符应用：

Disallow: /*?* # 屏蔽所有带参数的URL

Allow: /*?utm_* # 允许含UTM参数的追踪页面

场景：英文主站（domain.com）与中文子站（zh.domain.com）需独立配置robots.txt：

#7 爬虫预算管理：

让蜘蛛“少走弯路”

关键词：爬虫预算、核心页面抓取、低价值页面屏蔽

Vol.1

什么是爬虫预算？

定义：搜索引擎每天分配给网站的抓取资源总量，受网站权威度、更新频率等因素影响。

核心逻辑：

屏蔽低价值页面 → 释放预算 → 提升核心页面抓取频率 → 加速索引与排名

Vol.2

独立站的实战配置

屏蔽对象：

站内搜索结果页（/search/）；
分页标签（/tag/page/2/）；
用户登录页（/my-account/）。

代码示例：

User-agent: Googlebot

Disallow: /search/

Disallow: /tag/

Disallow: /my-account/

效果验证：通过Google Search Console的“抓取统计”功能，监控核心页面抓取频次变化。

#8 双引擎驱动

与Sitemap的协同策略

关键词：Sitemap声明、优先级引导、更新频率标记

Vol.1

Sitemap的核心作用

路径导航：直接向蜘蛛推荐高优先级页面（如新品页、促销活动页）；

更新提示：通过<lastmod>标签声明页面修改时间，触发蜘蛛二次抓取。

Vol.2

协同配置示例

User-agent: *

Disallow: /admin/

Sitemap: https://domain.com/product-sitemap.xml

Sitemap: https://domain.com/blog-sitemap.xml

原理：Disallow屏蔽干扰项，Sitemap强化核心内容曝光。

#9 适配不同搜索引擎

Google与百度的规则差异：

关键词：User-agent声明、Allow指令兼容性

Vol.1

蜘蛛名称差异：精准声明目标

Google：主要蜘蛛为Googlebot（通用）、Googlebot-Image（图片抓取）、Googlebot-Mobile（移动端）。

百度：主要蜘蛛为Baiduspider（通用）、Baiduspider-image（图片抓取）。

配置示例：

User-agent: Googlebot

Disallow: /admin/

User-agent: Baiduspider

Disallow: /admin/

原理：不同搜索引擎的蜘蛛名称不同，需分别声明规则。

Vol.2

Allow指令的兼容性

Google：支持Allow指令，可覆盖Disallow规则（优先级更高）。例如：

Disallow: /images/

Allow: /images/logo.png

# Google会抓取logo.png

百度：早期版本不支持Allow指令，建议谨慎使用。若需精准控制，可用路径排除法：

Disallow: /images/

Disallow: /images/logo.png

# 百度需单独声明例外

Vol.3

文件体积限制

Google：无明确文件大小限制，但建议控制在500KB以内。

百度：文件超过512KB可能导致解析失败，需精简规则。

#10 未来趋势

算法变化与长期维护策略

关键词：爬虫预算优化、语义理解增强

Vol.1

算法信任度变化的风险

现状：Google逐渐降低对robots.txt的绝对信任，若外部网站链接到你的屏蔽页，仍可能索引部分内容。

防护建议：

敏感内容：叠加noindex标签（禁止索引）+密码保护；
临时页面：使用Disallow+定期删除（如促销活动页）。

Vol.2

语义理解能力的提升

趋势：搜索引擎开始通过内容语义判断页面价值，而非完全依赖robots.txt指令。

应对策略：

即使屏蔽低质页面，仍需保证核心页面内容质量；
避免过度依赖robots.txt修复内容问题（如重复内容应优先合并或重写）。

Vol.3

维护策略：定期检查与最小化干扰

频率建议：

网站每月更新3次以内：每季度检查一次robots.txt；
高频更新站（如电商）：每月检查一次。

最小化原则：

优先屏蔽具体路径（如/search/），而非整个目录（如/data/）；
每次新增重要页面后，复查规则是否阻碍抓取。

#11新手终极行动清单

从0到1配置robots.txt

关键词：三步走策略、避坑自查表

Vol.1

第一步：基础配置（30分钟）

任务清单：

创建robots.txt文件，存放在根目录；
屏蔽后台目录（Disallow: /admin/）；
屏蔽站内搜索页（Disallow: /search/）；
添加Sitemap声明（Sitemap: https://example.com/sitemap.xml）。

Vol.2

第二步：进阶优化（1周）

任务清单：

屏蔽动态参数页（Disallow: /*?*，允许例外如Allow: /*?utm_*）；
声明多语言子域名独立规则；
通过Google Search Console测试规则有效性。

Vol.3

第三步：长期维护（每月）

任务清单：

检查覆盖率报告，定位误屏蔽页面；
清理无效规则（如已删除的目录路径）；
更新Sitemap文件，添加新页面。

#12 高频问题解答

新手最关心的7个问题

关键词：抓取权限、规则生效时间、文件冲突

Vol.1

Q：修改robots.txt后多久生效？

A：Google通常24-48小时内生效；百度可能需要1周以上。

Vol.2

Q：robots.txt和nofollow标签有什么区别？

A：

robots.txt控制抓取权限（能否访问页面）；
nofollow控制权重传递（是否传递链接价值）。

Vol.3

Q：多个Disallow冲突时，优先级如何判定？

A：搜索引擎按最长匹配原则执行。例如：

Disallow: /images/

Allow: /images/logo.png

# 允许logo.png

Vol.4

Q：子目录是否需要独立robots.txt？

A：不需要。主站robots.txt控制全站路径，子域名需单独配置。

Vol.5

Q：子目录是否需要独立robots.txt？

A：其他网站链接到该页面时，Google可能索引部分信息。需配合noindex标签。

Vol.6

Q：子目录是否需要独立robots.txt？

A：部分有效，但专业爬虫会伪造User-agent。建议结合服务器防火墙拦截。

Vol.7

Q：子目录是否需要独立robots.txt？

A：

设置文件权限为“只读”；
定期监控文件修改记录；
使用CDN服务防止DDoS攻击。

总结一下

Robots.txt不是技术壁垒，而是效率工具

对SEO新手来说，robots.txt的配置没有“高深技巧”，本质是理解搜索引擎的抓取逻辑，并用最简单的规则减少干扰。与其追求复杂语法，不如记住三个原则：

精准屏蔽：只封低价值页面；
定期清理：删除过期规则；
协同策略：与Sitemap、nofollow标签配合使用。

当你发现蜘蛛频繁抓取无效页面时，robots.txt就是最直接的“止损工具”。但记住：它无法替代优质内容。屏蔽只是第一步，持续产出用户需要的内容，才是SEO的核心。

优网科技，优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念，诚信务实的服务了近万家客户，成为众多世界500强、集团和上市公司的长期合作伙伴！

优网科技成立于2001年，擅长网站建设、网站与各类业务系统深度整合，致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设（品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用（手机站、APP开发）、微信定制开发（微信官网、微信商城、企业微信）等一系列互联网应用服务。

优网知识库

探索行业前沿，共享知识宝库

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设

优网知识库

探索行业前沿，共享知识宝库

Robots.txt配置：新手如何写好这份网站通行证？

企微云

客户池

微信小名片

网站建设

优网科技

小名片

53AI

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设