广州总部电话:020-85564311
广州总部电话:020-85564311
20年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

我要投稿

Robots.txt配置:新手如何写好这份网站通行证?

发布日期:2025-05-29 11:18:37 浏览次数: 834 来源:SEO干货分享社


 Google  ·SEO


这可能很多SEO伙伴才刚刚接触Robots协议,也不了解Robots是什么?有什么作用?

     你可以简单理解Robots.txt是网站的门卫,指定引搜索引擎的爬虫能抓取网站的哪些区域。比如我们在协议文件里屏蔽/admin/,那么谷歌和百度就不能来收录我们的网站。

     也可以假设,如果我们让爬虫去重点抓取我们网站的主要页面,那么他们收录的概率就会大幅度提升。

     在这里我会专门帮助大家整理与Robots全面的相关知识,对于任何行业都适用,如果有不懂的地方,可以通过公众号私信联系到我。


你的网站通行证,

别让搜索引擎“走错门”

Google SEO 

这篇文章将从三个核心板块展开:

  • robots.txt的本质搜索引擎蜘蛛眼中的“网站通行证”;

  • 常见误屏蔽场景新手最容易踩的5个坑;

  • SEO策略联动如何用robots.txt提升抓取效率?

我们不会讲复杂代码,而是用生活化类比帮你理解规则背后的逻辑。比如,把爬虫比作快递员,robots.txt就是派送地图,优先抓取高权重区域(如首页、产品页)。

本公众号精选干货内容分享,接触SEO的伙伴,有需要都可以关注下下哦~


目录

一、什么是robots.txt?

  1. 它是网站的“通行证地图”,告诉搜索引擎哪里能去、哪里不能进

  2. 三个核心指令:

  • 快递员名字(哪个搜索引擎要遵守规则)

  • 禁止区域(哪些页面不让抓取)

  • 推荐路线(告诉搜索引擎优先抓哪里)

  • 它的局限性:只能控制抓取权限

  • 二、新手最容易犯的5个错误

  1. 文件放错位置:必须放在网站根目录

  2. 漏写斜杠符号:屏蔽整个文件夹必须加“/”

  3. 乱用通配符:可能误封重要页面

  4. 忽视多语言站点:每个语言版本要单独设置规则

  5. 忘记移动端适配:手机版页面也要声明规则

三、如何用robots.txt提升抓取效率?

  1. 搜索引擎每天只花“固定工时”抓你的网站。

  2. 屏蔽垃圾页面(比如用户登录页),让蜘蛛集中抓产品页。

  3. 动态页面(带?id=123的链接)尽量屏蔽,除非特别重要。

四、工具使用和检查方法

  1. Google自带检测工具:一键排查规则冲突

  2. 手动检查三步走:

  • 确认文件位置

  • 测试是否能正常打开

  • 模拟搜索引擎抓取测试

  • 误操作后的补救措施:删除错误规则+提交更新提醒

  • 五、搞砸了怎么紧急补救?

    1. 第一步:立刻删掉写错的规则。

    2. 第二步:重新提交网站地图。

    3. 第三步:检查Google后台的“覆盖率报告”。

    六、多语言站/动态站怎么配置?

    1. 多语言站:每个语言版本单独写规则(比如英文站和中文站分开)。

    2. 动态站:屏蔽带参数的链接,但保留有用的(比如商品颜色筛选页)

    七、让蜘蛛“少走弯路”的秘诀

    1. 必须屏蔽的三类页面:

    • 站内搜索结果页、用户后台、过期促销页。

  • 检查蜘蛛工作报表(Google后台的“抓取统计”)。

  • 八、和网站地图(Sitemap)打配合

    1. 网站地图的作用:直接告诉蜘蛛“这些页面最重要”。

    2. 怎么写?一行代码告诉蜘蛛地图在哪。

    九、百度与Google规则差异

    1. 快递员名字不同:要分别写明百度/Google的规则

    2. 允许指令的兼容性:百度可能不认某些高级写法

    3. 文件大小限制:百度要求更严格

    十、未来要注意的3个变化

    1. 搜索引擎越来越“聪明”,可能绕过你的规则。

    2. 敏感内容要加双重保险(比如密码+屏蔽规则)。

    3. 每季度检查一次规则(尤其是网站改版后)

    十一、新手三步走行动清单

    1. 第一天:创建文件,屏蔽后台和搜索页。

    2. 第一周:加网站地图,测试规则是否生效。

    3. 每个月:清理过期规则。

    十二、你最关心的7个问题

    1. 规则改了多久生效?(Google最快1天,百度等1周)

    2. robots文件屏蔽了页面,为什么还能搜到?

    3. 手机版规则怎么写?

    4. 网站有中文站和英文站怎么办?

    5. 网站动态链接屏蔽了怎么办?

    6. robots规则冲突了听谁的?

    7. robots文件被黑客改了怎么办?

    #1 

    Robots.txt的本质

    Search Engine Optimization

    关键词:User-agent(搜索引擎蜘蛛名称)、Sitemap(网站地图链接)

    Vol.1

    什么是robots.txt?

    robots.txt是一个纯文本文件,存放在网站根目录下(如domain.com/robots.txt),它的作用是向搜索引擎蜘蛛(如Googlebot、Baiduspider)声明哪些页面可以被抓取,哪些需要禁止访问。


    • 生活化类比:你可以把robots.txt想象成一份“派送地图”。假设你的网站是一座大型商场,搜索引擎蜘蛛就是快递员,robots.txt的作用是告诉快递员:“哪些店铺可以进去送货(允许抓取),哪些仓库禁止进入(禁止抓取)”。

    • 核心价值:通过合理配置这份“地图”,你可以让蜘蛛高效抓取高价值页面(如产品页、博客),同时屏蔽低价值区域(如后台目录、测试页面)。

    Vol.2

    robots.txt的三大核心指令

    • User-agent:指定规则适用的搜索引擎蜘蛛名称。例如:

    User-agent: Googlebot   # 仅对Google蜘蛛生效

    User-agent: *       # 对所有蜘蛛生效

    • Disallow/Allow:声明禁止或允许访问的路径。例如:

    Disallow: /admin/   # 禁止抓取后台目录

    Allow: /admin/images/    # 允许抓取后台目录下的图片

    • Sitemap:提供网站地图链接,帮助蜘蛛快速发现核心页面。例如:

    Sitemap: https://example.com/sitemap.xml

    Vol.3

    robots.txt的局限性

    • 无法彻底阻止索引:即使屏蔽某个页面,如果其他网站链接到它,搜索引擎仍可能将其编入索引(但不会显示摘要)。

    • 不控制权重传递:robots.txt仅控制抓取权限,不影响页面权重分配(需配合nofollow标签)。

    #2 新手必看

    5大误常见错误调整

    关键词:通配符滥用、文件位置错误、斜杠陷阱

    Vol.1

    场景1:文件命名与存放错误

    错误案例:

    • 将文件命名为robot.txt(少一个字母s);

    • 将文件存放在子目录(如/blog/robots.txt),而非根目录。

    后果:搜索引擎无法识别规则,导致全站抓取失控。


    正确操作:

    • 文件名必须为robots.txt;

    • 存放路径为domain.com/robots.txt。

    Vol.2

    场景2:通配符滥用导致全站屏蔽

    错误写法:

    Disallow: /*?*  # 屏蔽所有含问号的URL

    风险:可能误封重要页面(如动态生成的产品详情页)。


    正确操作:精准限制参数范围,例如:

    Disallow: /*?sort=*   # 仅屏蔽排序参数页

    Allow: /product?color=* # 允许颜色筛选页

    Vol.3

    场景3:目录屏蔽的斜杠陷阱

    错误写法:

    Disallow: /admin    # 仅屏蔽/admin页面,不屏蔽子目录

    后果:/admin/login/等子目录仍可被抓取。


    正确操作:精准限制参数范围,例如:

    Disallow: /admin/    # 屏蔽整个目录及子目录

    Vol.4

    场景4:多语言站点的规则混淆

    错误写法:

    Disallow: /zh/   # 试图屏蔽中文子站

    风险:可能误封重要页面(如动态生成的产品详情页)。


    正确操作:精准限制参数范围,例如:

    • 为每个子域名(如zh.domain.com)单独配置robots.txt;

    • 主站规则仅控制主域名路径。

    Disallow: /*?sort=*   # 仅屏蔽排序参数页

    Allow: /product?color=* # 允许颜色筛选页

    Vol.5

    场景5:忽略移动端适配规则

    错误案例:仅配置PC端规则,未声明移动端蜘蛛(如Googlebot-Mobile)。

    后果:移动端页面抓取优先级降低。

    正确操作:

    User-agent: Googlebot-Mobile

    Disallow: /mobile-test/    # 屏蔽移动端测试目录

    #3 SEO策略联动

    用robots.txt提升抓取效率的底层逻辑

    关键词:爬虫预算、动态URL屏蔽、核心页面抓取

    Vol.1

    底层逻辑1:爬虫预算优化

    什么是爬虫预算? 搜索引擎每天分配给网站的抓取资源是有限的。如果蜘蛛花费大量时间抓取低价值页面(如分页、过滤页),核心页面(如产品页)的抓取频率会降低。

    操作公式:

    屏蔽低价值页面 → 释放爬虫预算 → 提升核心页面抓取频率 → 加速索引与排名  

    实战配置:

    Disallow: /tag/    # 屏蔽标签页

    Disallow: /mobile-test/    # 屏蔽移动端测试目录

    Vol.2

    底层逻辑2:动态URL的精准控制

    动态URL的典型特征:含参数(如?id=123)、会话ID(如?session=abc)。

    风险:被搜索引擎视为重复内容,稀释主页面权重。

    解决方案:

    Disallow: /*?    # 屏蔽所有带参数的URL

    Allow: /*?utm_*    # 允许含UTM参数的页面(用于广告跟踪)

    Vol.3

    底层逻辑3:核心页面抓取引导

    策略:通过Sitemap声明高优先级页面,例如:

    Sitemap: https://example.com/product-sitemap.xml

    Sitemap: https://example.com/blog-sitemap.xml

    原理:Sitemap像“VIP通道”,直接向蜘蛛推荐重要内容。

    #4 工具或手动检查:

    如何验证规则设置是否正确?

    关键词:Google Search Console、robots.txt测试工具、模拟抓取

    Vol.1

    Google Search Console测试工具

    作用:实时检测规则冲突(如Allow与Disallow矛盾)、验证蜘蛛抓取权限(如图:)。

    操作步骤:

    • 登录Google Search Console → 选择目标网站资源 → 点击“设置” → 点击抓取分类下robots.txt旁边的“打开报告” → 点击“robots.txt测试工具”;

    优势:

    • 无需编码基础,可视化界面直观展示阻断原因;

    • 支持快速定位规则错误(如通配符覆盖范围过广)

    Vol.2

    纯文本验证方法

    手动验证文件可读性:浏览器访问domain.com/robots.txt,确认文件内容正常显示。如图:

    常见错误包括:

    • 文件未放置在根目录(如误存于/public/robots.txt);

    • 文件名拼写错误(如robot.txt)。

    模拟蜘蛛抓取:使用curl命令模拟蜘蛛行为:

    curl -A "Googlebot" http://domain.com/admin/

    #5 失误修复

    误屏蔽后的修复流程:

    关键词:规则修正、Sitemap提交、覆盖率监控

    Vol.1

    即时生效操作

    • 删除错误规则:例如误屏蔽/product/目录,需删除Disallow: /product/;

    • 提交Sitemap:通过Google Search Console重新提交sitemap文件,加速搜索引擎重新抓取(见4.1图)。

    Vol.2

    长期监控策略

    覆盖率报告分析:

    • 进入Google Search Console → “覆盖率” → 查看“已拦截”页面列表;

    • 若发现核心页面被误封(如产品页、博客),需优先调整规则。


    日志文件监控:

    • 通过服务器日志分析蜘蛛抓取频次(如Googlebot访问/admin/的次数);

    • 若蜘蛛频繁尝试抓取屏蔽页面,需核对规则是否遗漏变体路径(如/admin与/Admin/大小写差异)。

    #6 特殊网站情况

    多语言站与动态网站的进阶配置

    关键词:子域名独立配置、参数化URL屏蔽

    Vol.1

    多语言子域名的独立规则

    场景:英文主站(domain.com)与中文子站(zh.domain.com)需独立配置robots.txt:

    User-agent: Googlebot-Mobile

    Disallow: /mobile-test/    # 屏蔽移动端测试目录

    原理:子域名被视为独立站点,需单独设置文件路径

    Vol.2

    多语言子域名的独立规则

    参数化风险:过滤器页面(如/product?color=red)易被视为重复内容,稀释主页面权重。

    通配符应用:

    Disallow: /*?*     # 屏蔽所有带参数的URL

    Allow: /*?utm_*    # 允许含UTM参数的追踪页面

    场景:英文主站(domain.com)与中文子站(zh.domain.com)需独立配置robots.txt:

    #7 爬虫预算管理:

    让蜘蛛“少走弯路”

    关键词:爬虫预算、核心页面抓取、低价值页面屏蔽

    Vol.1

    什么是爬虫预算?

    定义:搜索引擎每天分配给网站的抓取资源总量,受网站权威度、更新频率等因素影响。

    核心逻辑:

    屏蔽低价值页面 → 释放预算 → 提升核心页面抓取频率 → 加速索引与排名  

    Vol.2

    独立站的实战配置

    屏蔽对象:

    • 站内搜索结果页(/search/);

    • 分页标签(/tag/page/2/);

    • 用户登录页(/my-account/)。

    代码示例:

    User-agent: Googlebot

    Disallow: /search/

    Disallow: /tag/

    Disallow: /my-account/

    效果验证:通过Google Search Console的“抓取统计”功能,监控核心页面抓取频次变化。

    #8 双引擎驱动

    与Sitemap的协同策略

    关键词:Sitemap声明、优先级引导、更新频率标记

    Vol.1

    Sitemap的核心作用

    路径导航:直接向蜘蛛推荐高优先级页面(如新品页、促销活动页);

    更新提示:通过<lastmod>标签声明页面修改时间,触发蜘蛛二次抓取。

    Vol.2

    协同配置示例

    User-agent: *

    Disallow: /admin/

    Sitemap: https://domain.com/product-sitemap.xml

    Sitemap: https://domain.com/blog-sitemap.xml

    原理:Disallow屏蔽干扰项,Sitemap强化核心内容曝光。

    #9 适配不同搜索引擎

    Google与百度的规则差异:

    关键词:User-agent声明、Allow指令兼容性

    Vol.1

    蜘蛛名称差异:精准声明目标

    Google:主要蜘蛛为Googlebot(通用)、Googlebot-Image(图片抓取)、Googlebot-Mobile(移动端)。

    百度:主要蜘蛛为Baiduspider(通用)、Baiduspider-image(图片抓取)。

    配置示例:

    User-agent: Googlebot

    Disallow: /admin/


    User-agent: Baiduspider

    Disallow: /admin/

    原理:不同搜索引擎的蜘蛛名称不同,需分别声明规则。

    Vol.2

    Allow指令的兼容性

    Google:支持Allow指令,可覆盖Disallow规则(优先级更高)。例如:

    Disallow: /images/

    Allow: /images/logo.png

    #  Google会抓取logo.png

    百度:早期版本不支持Allow指令,建议谨慎使用。若需精准控制,可用路径排除法:

    Disallow: /images/

    Disallow: /images/logo.png

    # 百度需单独声明例外

    Vol.3

    文件体积限制

    Google:无明确文件大小限制,但建议控制在500KB以内。

    百度:文件超过512KB可能导致解析失败,需精简规则。

    #10 未来趋势

    算法变化与长期维护策略

    关键词:爬虫预算优化、语义理解增强

    Vol.1

    算法信任度变化的风险

    现状:Google逐渐降低对robots.txt的绝对信任,若外部网站链接到你的屏蔽页,仍可能索引部分内容。


    防护建议:

    • 敏感内容:叠加noindex标签(禁止索引)+密码保护;

    • 临时页面:使用Disallow+定期删除(如促销活动页)。

    Vol.2

    语义理解能力的提升

    趋势:搜索引擎开始通过内容语义判断页面价值,而非完全依赖robots.txt指令。


    应对策略:

    • 即使屏蔽低质页面,仍需保证核心页面内容质量;

    • 避免过度依赖robots.txt修复内容问题(如重复内容应优先合并或重写)。

    Vol.3

    维护策略:定期检查与最小化干扰

    频率建议:

    • 网站每月更新3次以内:每季度检查一次robots.txt;

    • 高频更新站(如电商):每月检查一次。


    最小化原则:

    • 优先屏蔽具体路径(如/search/),而非整个目录(如/data/);

    • 每次新增重要页面后,复查规则是否阻碍抓取。

    #11新手终极行动清单

    从0到1配置robots.txt

    关键词:三步走策略、避坑自查表

    Vol.1

    第一步:基础配置(30分钟)

    任务清单:

    1. 创建robots.txt文件,存放在根目录;

    2. 屏蔽后台目录(Disallow: /admin/);

    3. 屏蔽站内搜索页(Disallow: /search/);

    4. 添加Sitemap声明(Sitemap: https://example.com/sitemap.xml)。

    Vol.2

    第二步:进阶优化(1周)

    任务清单:

    1. 屏蔽动态参数页(Disallow: /*?*,允许例外如Allow: /*?utm_*);

    2. 声明多语言子域名独立规则;

    3. 通过Google Search Console测试规则有效性。

    Vol.3

    第三步:长期维护(每月)

    任务清单:

    1. 检查覆盖率报告,定位误屏蔽页面;

    2. 清理无效规则(如已删除的目录路径);

    3. 更新Sitemap文件,添加新页面。

    #12 高频问题解答

    新手最关心的7个问题

    关键词:抓取权限、规则生效时间、文件冲突

    Vol.1

    Q:修改robots.txt后多久生效?

    • A:Google通常24-48小时内生效;百度可能需要1周以上。

    Vol.2

    Q:robots.txt和nofollow标签有什么区别?

    • A:

      • robots.txt控制抓取权限(能否访问页面);

      • nofollow控制权重传递(是否传递链接价值)。

    Vol.3

    Q:多个Disallow冲突时,优先级如何判定?

    • A:搜索引擎按最长匹配原则执行。例如:

    Disallow: /images/

    Allow: /images/logo.png

    # 允许logo.png

    Vol.4

    Q:子目录是否需要独立robots.txt?

    • A:不需要。主站robots.txt控制全站路径,子域名需单独配置。

    Vol.5

    Q:子目录是否需要独立robots.txt?

    • A:其他网站链接到该页面时,Google可能索引部分信息。需配合noindex标签。

    Vol.6

    Q:子目录是否需要独立robots.txt?

    • A:部分有效,但专业爬虫会伪造User-agent。建议结合服务器防火墙拦截。

    Vol.7

    Q:子目录是否需要独立robots.txt?

    • A:

      • 设置文件权限为“只读”;

      • 定期监控文件修改记录;

      • 使用CDN服务防止DDoS攻击。

    总结一下

    Robots.txt不是技术壁垒,而是效率工具

    对SEO新手来说,robots.txt的配置没有“高深技巧”,本质是理解搜索引擎的抓取逻辑,并用最简单的规则减少干扰。与其追求复杂语法,不如记住三个原则:

    • 精准屏蔽:只封低价值页面;

    • 定期清理:删除过期规则;

    • 协同策略:与Sitemap、nofollow标签配合使用。

    当你发现蜘蛛频繁抓取无效页面时,robots.txt就是最直接的“止损工具”。但记住:它无法替代优质内容。屏蔽只是第一步,持续产出用户需要的内容,才是SEO的核心。



    优网科技,优秀企业首选的互联网供应服务商

    优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

    优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真)、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)、微信小程序定制开发等一系列互联网应用服务。


    我要投稿

    姓名

    文章链接

    提交即表示你已阅读并同意《个人信息保护声明》

    专属顾问 专属顾问
    扫码咨询您的优网专属顾问!
    专属顾问
    马上咨询
    联系专属顾问
    联系专属顾问
    联系专属顾问
    扫一扫马上咨询
    扫一扫马上咨询

    扫一扫马上咨询

    和我们在线交谈!