第314章 Y搜出海(6143)(2/8)
龄老人,占比可能已经超过了65%。现在互联网上的数据量之大,可想而知。古狗和千寻这种搜索引擎巨头,是随着互联网一步步成长起来的,他们的营收增速比互联网的增长还要快,自然能够不停地加大投入,来增设新的服务器,响应用户需求。这也是这个行业为什么没有新入局者的原因。这完全是一个积累型的行业,护城河非常深,根本不是一般公司能跨越的。想要凭借搜索体验、内容丰富度、搜索精准度等产品力指标推翻古狗或千寻的统治,唯一的办法就是某个巨头或大佬,不计回报的投入数百亿迈元,爬取整个互联网的内容,通过精妙的算法,才能做出一个和千寻或古狗在产品力上能掰手腕的搜索引擎出来。这也只是能掰掰手腕,是否能真的超过千寻和古狗,还不好说。也正因为如此,基于成本方面的考量,搜索引擎不会为每个网页设定统一的爬取频率。爬虫会根据网页的重要性、更新频率、网站的爬取策略来动态调整抓取频率。重要的网页,比如各个新闻网站和搜索引擎自己的新闻中心,可能几分钟就会重新爬取一次,而不常更新的页面可能几天、几周甚至几个月才被重新抓取一次。但刚刚雷君和周授兹所看到的Y搜,针对于一些普遍认为不应当被频繁抓取的网页,也进行了抓取不说,抓到的结果,还是几分钟之前的。例如,其中有一篇写于大嘴的自媒体文章,发表于5分钟之前。这种自媒体一般来说搜索引擎抓取的频率会非常低,除非类似在头条里面搜头条号这种垂直类型的搜索能搜出来,否则用千寻或古狗都是搜不出来的。就像这个网页就是如此,因为抓取频率的问题,这篇文章用千寻和古狗都搜不出来。但Y搜就是给搜出来了,而且这篇文章的质量还不低。难道说正好赶上Y搜爬这个链接了?那未免也太巧了吧?“Y搜不算完全的实时搜索,它和传统的搜索引擎技术实际是两个方向。”方豫把烟在烟灰缸里掐灭。他烟瘾不重,选在室外和雷君还有周授兹见面,就是因为雷君是个老烟枪,一天两包,新镐室内全面禁烟,这种带室外区的咖啡厅谈事情对烟民比较有利。“Y搜所用的搜索技术和传统搜索技术完全不同,传统的搜索技术是下载链接后对链接赋权索引建立数据库。”“而Y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率