广州总部电话:020-85564311
广州总部电话:020-85564311

广州网站建设-小程序商城开发-广州小程序开发-企业微信开发公司-网站建设高端品牌-优网科技

20年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

独立站运营中被忽略的重要问题
发布日期:2025-05-14 18:42:13 浏览次数: 813 来源:老王带你赚美刀
很多独立站在运营中都忽略了一个至关重要的问题。
爬虫(也叫BOT ,Crawler)

根据对我们是否有用,可以把爬虫分为两类,从搜索引擎来的爬虫,比如Google bot ,Bing bot ,这些爬虫的作用是爬取网站的内容,收录内容到搜索引擎,这些爬虫对网站的流量是有好处的,可以理解为好的,是“益虫”。

那坏的爬虫就是AI爬虫,SEO爬虫,漏洞扫描爬虫等。坏的爬虫会占用服务器的CPU和内存资源,而网站却得不到任何好处。有的爬虫会爬取你的网站信息,做出一样的网站,也可能研究你的资料,然后出售给你的竞争对手。

让我来一一说明:

如果运行的是VPS或者服务器,你就会知道 CPU 、内存资源和网络带宽都很宝贵,它们是你网站飞速运行的保障。

想象一下,当你打开网站的访问日志,发现每2-3秒访问你网站的都是爬虫,而且是无用的爬虫,这些爬虫机器人吃掉你网站的CPU和带宽,你的网站打开越来越慢,甚至影响了Google ,Bing等搜索引擎的爬虫的正常工作。

如果使用的是共享主机,那就更不用说了,本来硬件资源就得不到保障,还被爬虫浪费了.....

也行你会说,还好我是用的SAAS建站。(类似Shopify,YY等电商建站系统)。

那你的产品内容,你的博客文章、图片和视频也会被人工智能公司抓取并抄袭。这些公司会用抓取的内容来训练他们的大型语言模型 (LLM),这样其他人就能轻松地制作出与你内容相似的内容

更重要的是,像 Ahrefs 和 SEMrush 这样的 SEO 公司会抓取你的网站,发掘你的外链情况,并将这些信息出售给你的竞争对手,出售给那些希望在搜索引擎上超越你的企业....

还有一些漏洞扫描的爬虫它们都是恶意的,探测你服务器和网站的漏洞,黑掉你的服务器或者更改你网站的内容(挂外链等)....

恶意机器人列表:

一、AI 爬虫

前面说了,现在很多AI公司会抓取的内容来训练他们的大型语言模型 (LLM)。平时工作中见得最多的就是ChatGPT和ClaudeBot,特别是ChatGPT,完全可以用疯狂来形容,疯狂的投喂数据,也难怪ChatGPT的模型做得这么好。

国内的见得最多的是Bytedancespider ,Bytedance是哪家大家应该都明白,他们的网络爬虫抓取数据用于训练其 LLM(大型语言模型),所以字节的豆包还是好用的。不过也会浪费我们大量的服务器资源。

其次就是Aliyun,Ali的模型不太熟悉,也没用过。

至于其他国内的就比较少见,包括很火的Deepseek,不知道是不爬国外的站,还是有其他的方法,之前有朋友提过Deepseek的蒸馏算法,具体不太清楚。

常见的AI 爬虫:

anthropic-ai

Applebot-Extended

Bytedancespider

CCBot

ChatGPT

ClaudeBot

cohere-ai

Diffbot

FacebookBot

FriendlyCrawler

Image2dataset

Meta-ExternalAgent

omgilibot

PerplexityBot

Timpibot

二、SEO爬虫

SEO爬虫,大多数是爬外链的,研究网站的SEO数据。竞争对手可以轻松查询到你的SEO数据。

因为平时经常做SEO的工作,所以经常看到的几个爬虫。

MJ12Bot :Majestic 公司收集外链的爬虫,建议屏蔽。

SemrushBot:Semrush 的爬虫,大名鼎鼎的Semrush估计很多人都知道,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

AhrefsBot :  Ahrefs 的爬虫,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

DotBot:  Moz的爬虫,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

另外还有几个偶尔见的SEO爬虫

DataForSeoBot , 这个坚决屏蔽,就是卖你SEO数据的。

Barkrowler 

BLEXBot

BacklinksExtendedBot

三、安全扫描爬虫

CensysInspect,Expanse,Internet-measurement

全部屏蔽掉吧。

四、其他机器人和爬虫

Amazonbot   亚马逊的爬虫,据说是用来改进AMZ的服务。也是超级耗流量的,建议删除
PetalBot 华为的爬虫。
Githubbot Github的爬虫
还有一些扫描专利,版权的爬虫。
五、为什么没见过某些搜索引擎的爬虫
有的搜索引擎会带来流量,但没见过爬虫,比如Duckduckgo、Yahoo等。
那是因为Duckduckgo、Yahoo用的Bing的数据。
如何屏蔽爬虫:
最好的两种屏蔽方法:

如果加了CDN,可以在 Cloudflare 的制定防火墙(WAF)规则

如果是自己的VPS,服务器,也可以设置Web 服务器配置(Nginx 或 Apache)阻止爬虫。

并非所有机器人都遵网站的 robots.txt 规则,所以不建议只设置robots.txt

为什么不直接将User-agent添加到 robots.txt 中?

因为你提供的“规则”只是建议,许多恶意机器人都不遵守 robots.txt。所以不建议通过设置robots.txt去阻止某些爬虫的访问。

今天的文章就写到这里,希望对你有帮助。如果觉得写得还行,请帮忙转发,分享。
欢迎找我私聊,欢迎加我交流。
我的vx 6860145 ,不用寒暄,直接开聊。


优网科技,优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真)、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)、微信小程序定制开发等一系列互联网应用服务。


我要投稿

姓名

文章链接

提交即表示你已阅读并同意《个人信息保护声明》

专属顾问 专属顾问
扫码咨询您的优网专属顾问!
专属顾问
马上咨询
联系专属顾问
联系专属顾问
联系专属顾问
扫一扫马上咨询
扫一扫马上咨询

扫一扫马上咨询

和我们在线交谈!