`

横瓜先生深度解析LUCENE搜索引擎的分词索引及倒排的严重缺陷

 
阅读更多
横瓜(601069289)19:49:25
lucene没有浪费一个字节
横瓜(601069289)19:49:59
里面的算法相当难维护
广州-mike<swdhome@qq.com>19:50:08
昨天也聊到这个问题搜索我认为关键并不是速度还有很多东西可挖lucene给我好处就是我可以自己定制化我的搜索
横瓜(601069289)19:50:27
是的
横瓜(601069289)19:51:42
lucene原理和代码,我看过了,里面相当糟糕
横瓜(601069289)19:51:55
不具备可维护性
横瓜(601069289)19:52:26
但是被程序员调用,做的不错
横瓜(601069289)19:52:47
性能算法也相当糟糕
苏州--〇veに(498046828)19:53:05
不过效率也挺高的哇。。。
广州-mike<swdhome@qq.com>19:53:27
源码都有你觉得糟糕去重构掉那你就是对lucene对整个搜索行业的最大贡献
横瓜(601069289)19:54:09
重构掉,是不可能的
横瓜(601069289)19:54:32
因为细节太多了,lucene没有浪费一个字节
横瓜(601069289)19:54:58
你想象一下,你得费多少时间去重构
横瓜(601069289)19:55:07
去改写索引
北京-solr(353833134)20:01:20
谁敢说lucene算法差
北京_GIS_李克华(570777808)20:02:07
差在哪儿啊
横瓜(601069289)20:02:15
例如字典用明码
无求(331083052)20:03:09
明码。。。就算你是技术人,也得花段时间解析吧。就算加密,照样可以解析
横瓜(601069289)20:03:14
例如:ytutyuytuiyuiuiiopppppppppoiiuuuu
横瓜(601069289)20:03:29
占用多少个字节
北京-solr(353833134)20:03:39
字典加密压缩
VSγ2008(184777092)20:04:06
都是前缀压缩的
横瓜(601069289)20:04:32
知道,但是那是很糟糕的
VSγ2008(184777092)20:04:57
哪里?说说你的观点?
横瓜(601069289)20:05:12
前缀压缩,对于没有前缀,那压缩不了的
北京-solr(353833134)20:06:04
看过源码的高手们出来啊
VSγ2008(184777092)20:06:16
那只是极少情况才出现的
横瓜(601069289)20:06:39
所以说LUCENE的作者是非常笨的,很勤奋的那种人
VSγ2008(184777092)20:06:45
lucene的term是有序的所以前缀压缩很有优势
横瓜(601069289)20:07:12
LUCENE索引没有一个字节浪费
横瓜(601069289)20:07:45
听起来很强,其实是勤奋的牛,不灵活
横瓜(601069289)20:09:14
lucene的term是有序的所以前缀压缩很有优势
对于没有前缀的,那问题很大
横瓜(601069289)20:09:39
看这个字串:ytutyuytuiyuiuiiopppppppppoiiuuuu,用前缀压缩是不起作用的,用这个性能也不行
横瓜(601069289)20:10:18
横瓜搜索在第一版的时候,就解决了这些问题
横瓜(601069289)20:11:14
横瓜索引很整齐,50%的空间是浪费的
横瓜(601069289)20:12:42
lucene作者能和我交谈一下,我相信以他的勤奋,lucene各项指标可以增进10倍是没有问题
广沪-暗恋(416428278)20:18:36
任何算法都有其适用场景

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics