前言
为什么要将网站地图(Sitemap.xml)和 robots.txt 文件放在一起讲,是因为他们两是网站与搜索引擎交互的两个基石。它们共同决定了搜索引擎如何发现、抓取和索引网站内容。正确配置这些文件不仅是技术上的必要,更是优化抓取预算和提升搜索可见性的关键策略。
基础概念
robots.txt
robots.txt 是一个位于网站根目录的文本文件,它向搜索引擎爬虫(或称“机器人”)提供指令,告知它们可以或不可以访问网站上的哪些 URL 。其主要目的是管理爬虫流量,防止网站因过多的请求而过载 。这个文件就像是为爬虫设定的“规则手册”,赋予网站所有者对抓取行为更大的控制权 。
不光是Google家自己的爬虫,包括openAI等大模型、知名SEO工具Sermrush也有大量的爬虫爬取你的网站。
这一点很重要,如果不限制,可能会有很多恶意的爬虫或者机器取爬取的网站,导致你网站带宽、机器资源吃紧,我们团队就经常遇到恶意的爬虫,我们直接通过这个文件禁止了这个爬虫。
robots.txt 不仅是关于“不抓取什么”,更是关于“如何更高效地抓取什么”。如果爬虫在不相关的页面上花费的时间更少,它们就能将更多预算用于关键页面,从而加快这些页面的索引速度,提升其可见性。
Sitemap.xml网站地图
网站地图是一个 XML 文件,它为搜索引擎提供了一份网站结构的路线图,列出了所有重要的 URL,并提供了关于每个 URL 的元数据,例如上次更新时间以及内容更新频率等。
能帮助搜索引擎更快地发现新内容,理解网站的层级结构和组织方式,并更有效地索引动态或复杂的网站 。
总结
一个优化的 robots.txt 文件能够节省抓取预算,而一个干净、最新的网站地图则能引导这些节省下来的预算流向最有价值的内容。
一句话就是robots.txt 释放预算,网站地图引导预算,两者共同确保了最佳的索引和排名效果。
配置
robots.txt配置
robots.txt 文件是一个纯文本文件,采用 UTF-8 编码,必须命名为 robots.txt 并放置在网站主机的根目录下(例如:https://www.example.com/robots.txt)。
语法参数如下:
User-agent: * 表示适用于所有爬虫。Google 有多个特定爬虫,如 Googlebot-Image 、Googlebot-Mobile 、AdsBot-Google 。可以有多个 User-agent 指令。 | User-agent: * User-agent: Googlebot | |
Disallow: /private/ /private/ 目录被抓取。Disallow: / 会阻止整个网站被抓取。 | ||
Disallow: /folder/ ,那么 Allow: /folder/public-page.html 将允许抓取该特定页面。 | ||
Sitemap: https://www.example.com/sitemap.xml |
网站地图Sitemap配置
每个 XML 网站地图都使用特定的标签来组织页面信息,以便搜索引擎能够轻松处理 。
强制标签 | <urlset> | |
<url> | ||
<loc> | https://www.example.com/page.html )。每个条目必需。 | |
可选标签 | <lastmod> | |
<changefreq> | daily 、weekly 、monthly )。Google 通常视为提示而非指令。 | |
<priority> | <changefreq> 类似,Google 也将其视为提示。 | |
<image> |
虽然lastmod、changefreq 和 priority、image是可选标签,但它们的战略性使用可以微妙地影响抓取效率,特别是对于大型或频繁更新的网站 。
仅包含可索引页面: 网站地图应仅列出搜索引擎可访问且旨在索引的页面。排除指向重定向(301)、返回 404 错误或被 robots.txt 或 noindex 指令阻止的 URL 。
保持最新: 网站地图必须准确反映网站的当前内容。当页面添加、删除或更新时,网站地图也应相应更新 。对于动态网站,强烈建议自动化更新 。我们的建站平台就是做了自动跟新,不需要我们手动维护,方便了许多。
在 Robots.txt 中引用: 即使网站地图位于标准位置 /sitemap.xml,也建议在 robots.txt 文件中包含 Sitemap: 指令,指向网站地图的完整 URL 。这为搜索引擎提供了一种简单可靠的方式来发现网站地图,并确保其可被发现 。但是这里有一个点:如果你对你的网站不想过多的暴露,可以考虑在Robots.txt去掉。
标准位置和命名: 网站地图的常规 URL 是 /sitemap.xml。遵循此约定可使搜索引擎更容易找到 。对于大型网站,网站地图索引文件(例如
文件大小和 URL 限制: 每个网站地图文件不得包含超过 50,000 个 URL,且未压缩的文件大小不应超过 50MB 。对于大型网站,需要将内容拆分到多个网站地图中,并使用网站地图索引文件 。不过对我们来说,我们操盘的网站都没有那么多,除非是一些程序化PSEO网站、
提交与检测
robots.txt
提交
robots.txt 不需要单独“提交”,它必须放在网站根目录:https://www.example.com/robots.txt,搜索引擎会自动访问并抓取。
GSC → 设置 → 抓取 → robots.txt 报告(用于检测是否可访问、是否有抓取问题)
或者在浏览器里直接访问 https://www.example.com/robots.txt 查看文件内容
网站地图
提交和检测
放置在网站根目录(常见路径):
https://www.example.com/sitemap.xml
在 robots.txt 中声明:
Sitemap: https://www.example.com/sitemap.xml
提交给搜索引擎
Google Search Console → 索引 > 网站地图 → 添加 sitemap.xml → 提交
必应 Bing Webmaster Tools → Sitemaps → 添加并提交
其他搜索引擎(如 Yandex、百度)也有类似的站长平台入口。
总结
掌握 robots.txt 和网站地图配置对于任何想在获得强大自然搜索流量的网站都至关重要。
不论你是也技术人员还是业务人员都要关注这2个文件,我亲眼看过一位社群朋友,设置的全局禁止抓取网页,奔溃。
为了避免误操作,我们也将这两个文件的自动化维护集成到了我们的建站平台,减少了我们布局独立站的精力,让我们更好的专注内容创作。

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!
优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用(手机站、APP开发)、微信定制开发(微信官网、微信商城、企业微信)等一系列互联网应用服务。