关注全球
专注海外

哪些大型平台网站屏蔽 Google 等搜索引擎!为什么要这么做?

通常来说任何一个网站都希望不断的获得更多用户和流量,特别是来自搜索引擎的流量,更是非常优质的精准流量。但是最近却有越来越多的简体中文网站通过“robots.txt”规则来屏蔽各大搜索引擎。这是为什么?让他们宁愿舍弃这部分流量也要将内容圈起来进行隔绝。

从下图中我们可以看到目前 “知乎”(zhihu)来自 Google 搜索引擎的流量已经降至 2021 年 12 月左右。

数据查询在 Seranking SEO关键词工具,截图时间为 2024 年 8 月 27 日

不止知乎,其它还有很多平台都采取了这样措施。首先屏蔽来自搜索引擎的数据抓取,其次是屏蔽来自 AI 公司 Robot 的抓取。让我感觉互联网变得越来越不互联,各大型平台都开始割据,将各自的内容都圈在自己的地盘内。

特别是国内的一些网站或应用,不允许用户发布链接、微信号等,在抖音中甚至在视频中出现网址都会被封号、限流。总之就是不允许用户之间通过第三方渠道进行联系,必须通过站内或应用内进行互动。生怕自己的流量倒到平台以外。

另一个重要原因是这些平台不希望自己的数据被各大 AI 公司用于 AI 大模型训练。由用户产生的 UGC 数据将是这些平台的重要数据资产。

屏蔽搜索引擎的平台

知乎(zhihu)

从上图数据情况来看,知乎(zhihu)是在 2024 年 5 月份左右更改了其“robots.txt”规则。以下是知乎现在“robots.txt”的规则情况。它除了点名屏蔽百度、搜狗这两个搜索引擎以外,也屏蔽全部其它的搜索引擎。

User-agent: Baiduspider-news
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider-render
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider-image
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Sogou web spider
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /tardis/sogou/
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-Agent: *
Disallow: /

小红书(xiaohongshu)

而小红书也在近期更新了其“robots.txt”规则,它屏蔽了 Google、百度、Bing、搜狗、神马等搜索引擎及其它任何爬虫抓取网页内容。

User-agent:Googlebot
Disallow:/

User-agent:Baiduspider
Disallow:/

User-agent:bingbot
Disallow:/

User-agent:Sogou web spider
Disallow:/

User-agent:Sogou wap spider
Disallow:/

User-agent:YisouSpider
Disallow:/

User-agent:BaiduSpider-ads
Disallow:/

User-agent:*
Disallow:/

豆瓣网(Douban)

PC 版豆瓣的“robots.txt”对所有搜索引擎、AI或第三方爬虫禁止了对一些规定页面的抓取,搜索页面、小组页面、活动页面、名人页面、论坛页面等。它还专门针对手机端进行了单独“robots.txt”设置。其中值得注意的是它点名禁止了“豌豆荚”,并对 Mediapartners-Google (谷歌广告Ads分析爬虫)禁止了一些特定的页面。

PC 版豆瓣 robots.txt

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Disallow: /share/
Disallow: /people/*/collect
Disallow: /people/*/wish
Disallow: /people/*/all
Disallow: /people/*/do
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

User-agent: Mediapartners-Google
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/

手机端豆瓣 robots.txt

User-agent: *
Disallow: /book_search
Disallow: /group/topic_search
Disallow: /group/search
Disallow: /j/wechat/signature
Disallow: /rexxar/api/v2/notification_chart
Disallow: /rexxar/api/v2/market
Sitemap: https://m.douban.com/sitemap_index.xml
Sitemap: https://m.douban.com/sitemap_updated_index.xml

User-agent: Wandoujia Spider
Disallow: /

淘宝网(Taobao)

淘宝的“robots.txt”规则到时简单直接,只要链接中包含“?”的都不能被抓取收录。我大致查看了一些 PC 端淘宝的商品页、分类页、活动页等主要页面,链接中都是包含“?”,对于淘宝这个网站而言,商品页是最重要的,淘宝很早之前就屏蔽百度,但是它也同时屏蔽了其它搜索引擎我还是第一次确认这个情况。

User-agent: *
Disallow: /*?*

1688(阿里批发网)

1688 的“robots.txt”规则制定非常详细,我拿其中一段针对 Googlebot 的来看,针对其它的搜索引擎有一定的差异,感兴趣的可以直接点击“robots.txt”查看详细。它开放了一些非商品页,而针对商品页设置了单独的“robots.txt”,与淘宝网类似,屏蔽所有链接中带有“?”的网页,同时禁止 Googlebot 爬取任何商品页面。

User-agent: Googlebot
Disallow: /
Allow: /xunjia/
Allow: /seorush-sitemap/
Allow: /baojia/
Allow: /howmuch/
Allow: /pingjia/
Allow: /dingzhi/
Allow: /jiagong/
Allow: /changhuo/
Allow: /yangpin/
Allow: /gongchang/
Allow: /changjia/
Allow: /bangdan/
Allow: /factory/

然而国际站阿里巴巴(alibaba.com),这对 Google 收录商品页面则是开放的。查看 Alibaba robots.txt

对各大搜索引擎的影响

对于 Google、Bing 这类以非中文为主的搜索引擎而言,影响并不大。因为他们主要是市场在英语。但是对于百度、Sogou等中国国内只专注于中文的搜索引擎而言这是毁灭性的打击,他们将面临搜索内容枯竭的问题。同时由于中国对网站上线需要进行备案导致新网站上线呈断崖式下跌。因此从较长的一个周期来看百度等中文搜索引擎的路将越走越窄。

国内外情况差异

在海外大多数网站都是互联互通的,特别是一些大型平台。例如 Twitter(X)、Ins、YouTube、linkedin 等。其中一个原因应该就是反垄断法,特别是平台中是否允许放置链接引流到其它平台。如果平台严厉禁止第三方平台引流,只要平台够大,那么一定会被起诉垄断,打压中小企业创新力。而中国则没有这样的有力保护措施。

长期对简体中文用户影响

当通过搜索引擎获得的有效内容越来越少时,用户一定会慢慢放弃从这个渠道获取需要的消息,从而转到各个平台内进行搜索。而不同平台内容割据不互通。特别是作为内容平台,平台和平台之间一定会存在大量重复内容和内容搬运的情况。

最终导致的结果是,用户获得有效内容的时间和边际成本越来越高。这必然不利于各行各业的发展。

中短期内对独立站的影响

我认为在中短期内,大型平台屏蔽搜索引擎,对中小型独立网站来说是利好消息。因为在搜索引擎原本被大平台占据位置被空置了出来,这个时候权重较低或不高的独立站只要输出优质内容,就可以想办法去占据这些空置的位置获取更多的流量。

无论中英文都有这样的机会。英文中由于 Reddit 和 Google 签订了协议,其内容只提供给 Google,那么 Bing 中原先的 Reddit 位置就可以被中小型独立站去填补。虽说 Bing 的搜索量与 Google 比相差甚远,但是要知道对巨头而言再小的量,对中小型独立站而言都是近乎天文数字。这是一个思路,可以此为 G 点发散思考。

-=||=-收藏赞 (0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《哪些大型平台网站屏蔽 Google 等搜索引擎!为什么要这么做?》
文章链接:https://topstip.com/chinas-major-platform-websites-block-search-engines/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

评论前必须登录!

立即登录   注册