过河拆桥?为防“爬虫”爬取数据训练AI,百度百科屏蔽了谷歌等友商
近日有报道称,爬虫为了防止未经允许的过河谷歌“爬虫”爬取数据用于训练AI,百度百科已经屏蔽了谷歌、拆桥正宁县书屋新闻网必应等大多数搜索引擎。为防百度啊百度,爬取屏蔽你也学会过河拆桥了?数据商

有网友扒出了百度百科的robots.txt文件,发现允许放行的训练白名单中,只有百度搜索、百度百科搜狗搜索、等友中国搜索(Chinaso)、爬虫YYSpider和宜搜搜索(EasouSpider)几个搜索引擎,过河谷歌而谷歌、拆桥必应、为防正宁县书屋新闻网微软MSN、爬取屏蔽UC的数据商Yisouspider以及其他搜索引擎的爬虫已被列入了禁止名单。

众所周知,搜索引擎的工作原理,就是依靠“爬虫”到不同的网站上爬取数据,然后展示在自己的搜索结果中。
百度曾经能搜到很多内容,但百度的“爬虫”过于高频地访问网站爬取数据,会对网站的服务器产生巨大压力,影响到了正常运转,会主动选择禁止百度爬取数据。此外,一些网站为了占据用户心智、避免影响广告收入等原因,也会主动选择屏蔽百度的爬虫,这就导致百度越来越难搜到想要东西了。

近几年,AI大模型的快速发展,需要不少用户真实数据进行支撑,而包含百度用户自发编辑的百科内容,绝对是一个不小的数据训练宝库,“人均硕博学历、频繁刚下飞机”的知乎也是同理。但据爆料,知乎已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。
曾经,百度起家靠的就是爬遍全网的“爬虫”们,把自己爬到了“国服第一”的位置。但现在,想在文心一言上发力的百度却反手禁了其他友商的爬虫,把车门给焊死了,谁都别想上来。
对此,我们也只能感叹到,互联网越来越不互联了。
本文转载:砚山诈骗新闻网站官网 https://whi.mdnsry.cc/html/69e55599375.html
特别声明:本文仅供交流学习 , 版权归属原作者,部分文章推送时未能及时与原作者取得联系,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。若本文来源标注错误或无意侵犯到您的知识产权作品或损害了您的利益,我们会及时修改或删除。
相关文章
文章评论
来说两句吧...共有156条评论
- 站长推荐
- 点击排行
站长推荐
点击排行
“文旅市集”,枞阳县图书馆书卷飘香欢度佳节- 1“文旅市集”,枞阳县图书馆书卷飘香欢度佳节
- 1【“中国游记”第二季㉖】来贵州,看“村超”为啥让全世界着迷?
- 1身体疲惫时能运动吗?如何缓解春困乏力?照着做就对了→
- 1英特尔18A工艺进展顺利:相关芯片已成功点亮
- 12026巴基斯坦文化周在成都开幕
- 1“旅游十大古村镇”开展评选
- 1“让区域合作成为多边主义的坚实基础”(聚焦博鳌亚洲论坛2026年年会)——博鳌亚洲论坛二〇二六年年会凝聚各方共识、引领发展方向
- 139.98万元起,鸿蒙智行看家车型享界 S9正式上市
- 1邓之东:好事不留名 温暖传全城
- 1光谷生物城一季度招商签约32个项目 能对抗肿瘤复发的纽伦捷生物落户
标签云
- 川银新闻网(78479) 乌鲁木齐第四医院新闻网(4789) 怀远和高新区新闻网(23) 河南濮阳火车站新闻网(717) 重庆荣昌新闻网(996) 新余白沙新闻网招聘(5784) 河北新闻网东京残奥会(22532) 阿荣旗公安新闻网(4) 石岐区清溪新闻网(54817) 崇信县厕所新闻网(76) 弥勒太平乡政府新闻网(2842) 河北新闻网直播南水北调(641) 宝鸡新闻网酒驾(85596) 中国最近的大学新闻网(8) 上海防疫官方新闻网(3) 中国新闻网天津头条首页(91425) 虹口区物业新闻网(7) 中国新闻网消防队名单(7497) 福州新闻网朱慧彬(3) 海口糖尿病医院新闻网(876) 太原市柳巷乡新闻网(167) 科技通讯新闻网(54984) 泰安龙井新闻网(4) 抚顺市东方社区新闻网(23726) 青海湟源新闻网最新(5) 秦皇岛建昌新闻网(33934) 绩溪县两山新闻网(55284) 民和县凉平新闻网(66431) 陕西电视台第一新闻网(51) 南安普法南安新闻网(85)






