横瓜先生深度解析LUCENE搜索引擎的分词索引及倒排的严重缺陷 -

woganwuping

浏览: 76269 次

最近访客更多访客>>

Fly872365

narlian

htf120

hwzyyx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2013-07 ( 5)
2013-06 ( 114)
2013-05 ( 108)
更多存档...

横瓜先生深度解析LUCENE搜索引擎的分词索引及倒排的严重缺陷

横瓜(601069289)19:49:25
lucene没有浪费一个字节
横瓜(601069289)19:49:59
里面的算法相当难维护
广州-mike<swdhome@qq.com>19:50:08
昨天也聊到这个问题搜索我认为关键并不是速度还有很多东西可挖lucene给我好处就是我可以自己定制化我的搜索
横瓜(601069289)19:50:27
是的
横瓜(601069289)19:51:42
lucene原理和代码，我看过了，里面相当糟糕
横瓜(601069289)19:51:55
不具备可维护性
横瓜(601069289)19:52:26
但是被程序员调用，做的不错
横瓜(601069289)19:52:47
性能算法也相当糟糕
苏州--〇veに(498046828)19:53:05
不过效率也挺高的哇。。。
广州-mike<swdhome@qq.com>19:53:27
源码都有你觉得糟糕去重构掉那你就是对lucene对整个搜索行业的最大贡献
横瓜(601069289)19:54:09
重构掉，是不可能的
横瓜(601069289)19:54:32
因为细节太多了，lucene没有浪费一个字节
横瓜(601069289)19:54:58
你想象一下，你得费多少时间去重构
横瓜(601069289)19:55:07
去改写索引
北京-solr(353833134)20:01:20

谁敢说lucene算法差
北京_GIS_李克华(570777808)20:02:07
差在哪儿啊
横瓜(601069289)20:02:15
例如字典用明码
无求(331083052)20:03:09
明码。。。就算你是技术人，也得花段时间解析吧。就算加密，照样可以解析
横瓜(601069289)20:03:14
例如：ytutyuytuiyuiuiiopppppppppoiiuuuu
横瓜(601069289)20:03:29
占用多少个字节
北京-solr(353833134)20:03:39
字典加密压缩
VSγ2008(184777092)20:04:06
都是前缀压缩的
横瓜(601069289)20:04:32
知道，但是那是很糟糕的
VSγ2008(184777092)20:04:57
哪里？说说你的观点？
横瓜(601069289)20:05:12
前缀压缩，对于没有前缀，那压缩不了的
北京-solr(353833134)20:06:04
看过源码的高手们出来啊
VSγ2008(184777092)20:06:16
那只是极少情况才出现的
横瓜(601069289)20:06:39
所以说LUCENE的作者是非常笨的，很勤奋的那种人
VSγ2008(184777092)20:06:45
lucene的term是有序的所以前缀压缩很有优势
横瓜(601069289)20:07:12
LUCENE索引没有一个字节浪费
横瓜(601069289)20:07:45
听起来很强，其实是勤奋的牛，不灵活
横瓜(601069289)20:09:14
lucene的term是有序的所以前缀压缩很有优势
对于没有前缀的，那问题很大
横瓜(601069289)20:09:39
看这个字串：ytutyuytuiyuiuiiopppppppppoiiuuuu，用前缀压缩是不起作用的，用这个性能也不行
横瓜(601069289)20:10:18
横瓜搜索在第一版的时候，就解决了这些问题
横瓜(601069289)20:11:14
横瓜索引很整齐，５０％的空间是浪费的
横瓜(601069289)20:12:42
lucene作者能和我交谈一下，我相信以他的勤奋，lucene各项指标可以增进10倍是没有问题
广沪-暗恋(416428278)20:18:36
任何算法都有其适用场景

分享到：