唯我独法:我在都市修奥法 第297节

  ICANN就是上次方豫和马斯克聊天的时候提到的那个机构,全称是互联网名称与数字地址分配机构。

  这个机构名义上是一个非盈利的全球组织,负责域名分发和和DNS根区注册管理机构的实际技术维护工作。

  不只是全球的域名管理都归这个机构负责,传说的13台根服务器,也是这个机构所管理。

  但实际上,这个机构本质上根本不是什么全球组织,他们是受迈国国防部和商务部以及信息部共同管辖的。

  不少国家都抗议过,要求ICANN改为联大直接管理,根本没用。

  盎文26个字母的单字母顶级域名,其中23个掌握在ICANN手中,只有三个可以流通。

  其中x域名以前就是马斯克的,是马斯克在九十年代花一万迈元买的,现在还属于paypal。

  z域名原本属于倭产,倭产用来当自己的顶级Z系列跑车的官网,后来Z系列停产,前年Z域名被卖给了同样是倭国的一个网络公司。

  q域名在迈国一个叫Qwest的电信运营商手里。

  基本上,这三个域名中,可能只有q域名和x域名能买到手,因为这两个域名本质上没有启用,属于闲置,但基本上也要千万迈元左右,不会低于500万迈元。

  关键是对方还得卖,大概率还会提出股权要求。

  更不要说根本没开放购买的Y域名了!

  Y域名和什么q还有z之类的单字母域名可不一样,这个域名本身自带why的谐音,堪称搜索引擎最佳搭档。

  如果这个域名开放购买,哪怕一千五百万迈元,古狗等搜索引擎公司都会抢着买。

  这个域名现在怎么会在柚子科技手里?

  虽说除了一个hao123之外,没有哪个网站是真靠域名火了的,但稀有资产就是稀有资产,能够拿到手,本身就说明了很多问题。

  “之前帮助ICANN解决了一些小问题,算是酬劳。”方豫一脸的云淡风轻。

  小问题?

  毛个小问题这帮鬼佬能把Y域名给你啊?

  方豫心中撇嘴,当然是ICANN管理层和诸多域名注册管理公司之间利益往来的小问题喽。

  看到这个机构的诸多内部资料的时候,方豫吓了一跳。

  第一次看到能和某些国家管理用脚踢球的非官方组织黑心程度差不多的机构。

  想也知道,这机构只有权力,没有义务,基本没有人能管他们,内部能不混乱才有鬼了。

  坑他们真的是一点心理压力都没有。

  雷君和周授兹面面相觑,都从对方眼神中看到了震惊。

  周授兹的神色更是不自觉凝重起来。

  “why域名我也买下来了,750万迈元。上线的时候输入Y.com,会自动解析到Why.com。”方豫嘬了嘬牙花子,现在想想都肉疼,“可以试试这个搜索引擎。”

  雷君压下心中的疑惑,没有把方豫的手机拿起来,放在桌子上,在对话框中输入了“大米手机”四个字。

  几乎没有任何等待时间,屏幕上便弹出了一行行的搜索信息。

  最上方还有一行提示,“您可以说出您想搜索的具体信息,比如‘最新款大米手机哪里有卖的’或‘大米手机的性能’等,我都能听得懂哦。”

  雷君没管上面的提示,估计就是结合了一部分橘子大模型的功能,而是专心看起了搜索结果。

  大米官网、千寻百科、大米商城、淘猫、狗东、小破站、知否……

  随后,他又拿出自己的大米手机,打开古狗和千寻,开始对标。

  不对标不要紧,这一对标,雷君和周授兹还真发现了一些东西。

  好像……这个Y搜出来的结果实用性更强一些?

  没广告可以理解,毕竟没有上线,上线商业化后必然会有广告和竞价排名。

  但刨除广告这部分外,其他的搜索解雇似乎Y搜出来的结果质量也更高一些。

  如果只是这样,可能是搜索算法的优势,有可能是给每个网站进行了赋权,权重高的搜出来的可能性就高。每个搜索引擎都有这方面的算法,就是看谁的算法更精准了。

  但这些搜索记录的日期和时间……

  雷君沉吟了一下,又输入了“周为于大嘴”。

  第一条就是“为什么叫于成冬为于大嘴?”

  底下就是于大嘴的百科和各个网页。

  再看看这些网页中最晚的时间。

  最晚的一条居然是五分钟之前。

  “嘶~”雷君倒吸一口凉气,第一次对方豫露出不可思议的眼神,“方总,你这个搜索引擎是实时抓取的?你的带宽、存储和算力够吗?”

第316章 Y搜出海(6143)

  这是实时爬取的数据吗?怎么可能?

  柚子科技怎么可能有这么大的数据中心和带宽?

  别说只是拿了10亿迈元投资的柚子科技,就算是目前现金流已经基本回正的大米,想要投一个搜索引擎,也是天方夜谭般的事情!

  “实时抓取?柚子科技的带宽和服务器够吗?”

  雷君完全想不通,柚子科技这个Y搜,是怎么实现的。

  搜索引擎发展到了今天,无论是罗伯特李的超链技术和古狗基层的pagerank技术,本质都是通过网络爬虫从一个或多个著名网站开始,不断地通过各种网页链接爬取网页并读取网页内容。

  抓取到的网页内容并不是直接用于搜索,而是被分析、提取出页面中的关键信息,如文本内容、标题、关键词、链接等后,存储在搜索引擎的索引库中。

  这个索引库就像是一本互联网内容的目录,帮助搜索引擎在用户发起查询时迅速找到相关的页面。

  罗伯特李的超链技术和pagerank不同的是,罗伯特李解决的是爬取的方式问题,而pagerank解决的是为网页赋权的问题。

  具有相同内容的两个网页,来自白屋的网页和来自非洲一个小孩的个人网页,权重显然是不同的。

  古狗的pagerank通关算法,将这些网页进行赋权,算出哪些网页更有价值,那么这些网页就更容易被搜到。

  这两种技术,也是当今搜索引擎最底层的技术,几乎所有搜索引擎都是建立在这两种技术之上的。

  但这就带来一个问题。

  带宽和无比庞大的数据库问题。

  带宽决定了搜索引擎的爬取速度和用户体验速度,而数据库决定了搜索结果的准确性和丰富性。

  每秒钟互联网上都会有无数新的网页诞生,爬下来的链接数据库存在哪里?需要多大的服务器空间?

  虽然只是存储连接和内容索引,但整个互联网网页量太大了,仅仅只是这一小部分,就不是哪个小企业能够承受的。

  古狗每年光是花在服务器新增、更新、维护上的钱就多达七十亿迈元,而且这笔钱每年都在增加。

  古狗和千寻都是在互联网蛮荒时代就已经进入这个领域的创业者,在一开始,不需要投入太多的服务器资源,就能够把互联网上所有的网页链接全都爬一遍。

  但现在可不是,经过十几年的发展,互联网已经变成了一个庞然巨物,互联网用户已经超过34亿人,占全球人口的45%。

  如果去掉学龄前尚未真正注册互联网账户的幼儿和对互联网完全没有认知的高龄老人,占比可能已经超过了65%。

  现在互联网上的数据量之大,可想而知。

  古狗和千寻这种搜索引擎巨头,是随着互联网一步步成长起来的,他们的营收增速比互联网的增长还要快,自然能够不停地加大投入,来增设新的服务器,响应用户需求。

  这也是这个行业为什么没有新入局者的原因。

  这完全是一个积累型的行业,护城河非常深,根本不是一般公司能跨越的。

  想要凭借搜索体验、内容丰富度、搜索精准度等产品力指标推翻古狗或千寻的统治,唯一的办法就是某个巨头或大佬,不计回报的投入数百亿迈元,爬取整个互联网的内容,通过精妙的算法,才能做出一个和千寻或古狗在产品力上能掰手腕的搜索引擎出来。

  这也只是能掰掰手腕,是否能真的超过千寻和古狗,还不好说。

  也正因为如此,基于成本方面的考量,搜索引擎不会为每个网页设定统一的爬取频率。

  爬虫会根据网页的重要性、更新频率、网站的爬取策略来动态调整抓取频率。

  重要的网页,比如各个新闻网站和搜索引擎自己的新闻中心,可能几分钟就会重新爬取一次,而不常更新的页面可能几天、几周甚至几个月才被重新抓取一次。

  但刚刚雷君和周授兹所看到的Y搜,针对于一些普遍认为不应当被频繁抓取的网页,也进行了抓取不说,抓到的结果,还是几分钟之前的。

  例如,其中有一篇写于大嘴的自媒体文章,发表于5分钟之前。

  这种自媒体一般来说搜索引擎抓取的频率会非常低,除非类似在头条里面搜头条号这种垂直类型的搜索能搜出来,否则用千寻或古狗都是搜不出来的。

  就像这个网页就是如此,因为抓取频率的问题,这篇文章用千寻和古狗都搜不出来。

  但Y搜就是给搜出来了,而且这篇文章的质量还不低。

  难道说正好赶上Y搜爬这个链接了?

  那未免也太巧了吧?

  “Y搜不算完全的实时搜索,它和传统的搜索引擎技术实际是两个方向。”方豫把烟在烟灰缸里掐灭。

  他烟瘾不重,选在室外和雷君还有周授兹见面,就是因为雷君是个老烟枪,一天两包,新镐室内全面禁烟,这种带室外区的咖啡厅谈事情对烟民比较有利。

  “Y搜所用的搜索技术和传统搜索技术完全不同,传统的搜索技术是下载链接后对链接赋权索引建立数据库。”

  “而Y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率性的判定,依据这种概率,给出搜索结果。”

  “因此,Y搜并不需要特别多的服务器来存储这些网页具体数据,只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”(注1)

  “当用户进行搜索的时候,大模型会自动依据用户的意图或自己的判断,给出其认为符合用户需求的链接。”

  “至于说爬取频率的问题,其实这并没有这么难,根据internetlivestats实时数据,互联网目前有13亿网页,其中百分之五十都是空链接或失效链接。”

  “去掉这些,只有六亿多,六亿的链接中,又有接近四个亿网页是‘非活跃网站’。”

  “橘子的算法是依据‘数据标记’进行判断,已经爬取的‘数据标记’并未改变的情况下并不会重复爬取,在‘数据标记’被改变后,橘子大模型才会主动爬取更新的网页,确保自身的数据处于最新,同时再新建一个‘数据标记’。”

  “这种技术的好处在于,我们不需要像千寻和古狗一样,建立那么多那么大的数据中心。”

  “一个占地两万平米的单层数据中心,应该就足够满足全大周用户的搜索需求,投入可能只相当于古狗的百分之一不到,目前Y搜使用的是阿狸云。”

  “当然,如果还要开发其他业务的话,比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能,还是需要很大的数据中心来做支撑。”

  “另外这个技术还有一个好处就是非常便于审核和过滤,在审核过滤规则确定的情况下,Y搜可以更为精准的过滤需要审核的信息,避免误伤。”

  “AI时代,未被污染的数据太重要了,但现在大周互联网上的周文数据污染情况过于严重,训练大模型的效果很差。”

  “这其中相当一部分是由于审核误伤所导致的,造成周文数据可训练度差,因此在Y搜的算法之下,可以精准识别需要过滤的搜索结果,降低97.98%的数据误伤。”

  “这一条虽然短时间内看不出来什么,但时间长了,对整个大周的互联网数据资源都有相当大的好处。”

  “带宽和千寻目前的带宽需求相差不大,毕竟数据的传输和返回都是需要带宽的,但这部分成本对于搜索引擎来说,占比本身就不大。”

  “这种技术最大的难点在于,大多数网页的变化是难以精确预估的,且需要一个可靠的爬取策略来保持数据的时效性,并且保障链接和生成索引之间的准确性。”

  “但好在,在这方面我们取得了一些突破,当然,具体的算法涉及机密,就不和二位介绍了。”

  “正因为各方面的成本都节省了,即使Y搜不上市,我也能维持这个搜索引擎的正常运营。”

  雷君看着方豫的手机屏幕,就像在看外星人:“你的意思是,Y搜是一个伪装成搜索引擎的大模型?”

  短短几个月时间,AI就把搜索引擎行业颠覆了?

  这是什么样的进化速度!?

  有可能做到吗?

首节 上一节 297/442下一节 尾节 目录