百度的搜索技术横扫中国,在各方面都超过其他搜索引擎。学习研究推测百度的内部索引结构及分布式架构原理,将有助于整个中国的搜索技术的更远发展更快发展。横瓜先生用5年时间从0行代码起步,经历近百次优化并完成横瓜搜索引擎(一个类似LUCENE全新的搜索),写的搜索代码接近百万行,横瓜先生对于搜索引擎技术的各方面都知晓细节,并有不同凡响的开发体会。横瓜先生深层次推测剖析百度网页搜索引擎的内部索引结构及分布式架构原理如下:
1.索引存储介质推测:百度8个关键字AND计算的检索速度在10MS以内,传统硬盘寻道时间高于此级别,再排除网络延迟时间。横瓜先生推测:百度索引已经采用固态闪盘或500G级别内存来实现存储索引文件,传统硬盘已经被百度网页搜索引擎弃用。
2.分布式单元数量以及索引架构推测:百度日IP为8000万,日PV为8亿,可以推算百度的每秒并发IP为1000,每秒承载的PV为10000。横瓜先生推测:百度的执行单元为100个左右,1个执行单元下有100台PC负责100亿网页级别的检索,1个执行单元可以每秒承受100次查询,则100个执行单元可以每秒承载的PV为10000。横瓜先生推测百度网页搜索引擎的仅服务器就在数千台左右。百度在全国各地做CDN优化,将URL导向百度接入层,百度接入层为高速陆由器或高速交换机,负责轮流分发给100个执行单元处理,以保持检索并发的负载均衡。
3.百度索引树算法推测:LUCENE索引结构是以2叉树为基础的B树倒排结构,这决定了索引数据时要维护2叉树为基础的B树倒排结构,例如查找并增量,将耗费一定的时间消耗,其时间复杂度为O(LOGN),而sphinx是以HASH哈希树为基础的倒排结构,其时间复杂度为O(1),所以随着数据的增多,LUCENE索引树的维护将超过sphinx索引树的维护。导致sphinx索引速度是LUCENE索引速度的10倍这么大的差距。百度更新数据都是非常迅速的,当然分布式可以补偿单机的吞吐量。但横瓜先生大胆推测认为:百度索引树算法有80%的可能是以HASH哈希树为基础的倒排结构,20%是以2叉树为基础的B树倒排结构。这点,横瓜先生并无完全把握去推测。
如有不同观点请联系横瓜先生QQ601069289讨论,欢迎共同推测百度搜索技术,将有助于整个中国的搜索技术的更远发展更快发展。
附:类哈希定义:sphinx要考虑存储和查询,sphinx要考虑空间效率和时间效率的平衡,那么sphinx用的哈希,已经是混合算法了.但是计算机课本上的哈希是sphinx的基础.
搜索用的哈希与计算机课本上的哈希,有很大差别,sphinx只能说用的类哈希算法,与计算机课本上的哈希,有很大差别.
分享到:
相关推荐
解密百度解密百度的算法 只是推测而已,记得一定要放大看呀
元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但是它们返回的结果往往数目庞大,并且很多结果与用户查询并不相关,这直接影响了用户检索的质量和大大提高了用户检索的代价。为了帮助用户在避免无用信息...
2021年09月16日
Jnternet是一个庞大的分布式网络,并且还在不断扩大,伴随着网络的规模 和复杂性的不断增加,新型的网络应用也不断涌现,但是目前的nIternet存在 很多问题,作为网络管理的重要组成部分,网络性能测量所得到的数字...
#资源达人分享计划#
在ChatGPT发布之初,我同许多AI从业者一样对这个被媒体号称要取代搜索引擎的聊天机器人产品是持怀疑态度的,但在深度体验之后,发现ChatGPT跟以往昙花一现的产品并不一样,它对于回答成熟的知识确实已经大有替代搜索...
错误推测法-常见测试点
统计推测习题答案,很多出国的人都在寻找的资源哦,支持的狂顶下
云计算系统使用分布式文件系统(DFS)来存储和处理组织中生成的大数据。 基于Web的信息系统的用户非常频繁地执行读取操作,而很少对存储在DFS中的数据执行写入操作。 文献中提出了各种缓存和预取技术,以提高在DFS上...
深度学习在实践中的显著成功,从理论的角度揭示了一些重大的惊喜。...我们推测这些现象背后有特定的原理: 过度参数化允许梯度方法找到插值解,这些方法隐含地施加正则化,过度参数化导致良性过拟合。
在ChatGPT发布之初,我同许多AI从业者一样对这个被媒体号称要取代搜索引擎的聊天机器人产品是持怀疑态度的,但在深度体验之后,发现ChatGPT跟以往昙花一现的产品并不一样,它对于回答成熟的知识确实已经大有替代搜索...
提出了一种网络内部链路报文丢失率的推测方法。利用端到端测量得到的路径累积生成函数,可以推测链路的累积生成函数,从而得到链路的报文丢失率。基于链路累积生成函数保留的统计信息,运用切尔洛夫界限定理,可以...
电信设备-步幅推测方法、移动轨迹计算方法及步幅推测装置.zip
英语四六级准考证号推测小程序,只是一时兴起,捉摸着写的小推测程序,只要知道考试场号,座号就能推测出准考证号,希望大家下载测试,源码都已附上,忘大家积极改进。。
基于分子信息推测北极高山植物山蓼的起源地及冰期避难所,郑鑫,龙聪,山蓼(Oxyria digyna)是一种世界广布的古老的北极高山物种。为了探讨山蓼在第四纪气候变化时期可能的起源地和冰期避难所,测定了来�
但是从软件的界面上推测,好像是可以在Protel、PADS和orCAD之间相互转换,只是我实际没有测试过。 二、PCB转换工具“alt2pads.exe”。 该软件可以将Protel格式的PCB和CAD格式的文件转换成PADS格式的PCB文件。
电感器的结构类似于变压器,但只有一个绕组。电感器具有一定的电感,它只阻碍电流的变化。如果电感器在没有电流通过的状态下,电路接通时它将试图阻碍电流流过它;如果电感器在有电流通过的状态下,电路断开时它将...
基于端到端Ad Hoc网络链路丢失率推测方法研究,姚烨,蔡皖东,可测量性是对Ad Hoc网络进行性能评价和网络管理的基础,本文提出一种基于端到端多源测量的Ad Hoc网络内部链路丢失率推测方法,基本思
错误推测方法一.方法简介1.定义:基于经验和直觉推测程序中所有可能存在的各种错误,从而有针对性的设计测试用例的方法。2.错误推测方法的基本思想: 错误推测方法 一.方法简介 1.定义:基于经验和直觉推测程序...