横瓜(601069289)19:49:25
lucene没有浪费一个字节
横瓜(601069289)19:49:59
里面的算法相当难维护
广州-mike<swdhome@qq.com>19:50:08
昨天也聊到这个问题搜索我认为关键并不是速度还有很多东西可挖lucene给我好处就是我可以自己定制化我的搜索
横瓜(601069289)19:50:27
是的
横瓜(601069289)19:51:42
lucene原理和代码,我看过了,里面相当糟糕
横瓜(601069289)19:51:55
不具备可维护性
横瓜(601069289)19:52:26
但是被程序员调用,做的不错
横瓜(601069289)19:52:47
性能算法也相当糟糕
苏州--〇veに(498046828)19:53:05
不过效率也挺高的哇。。。
广州-mike<swdhome@qq.com>19:53:27
源码都有你觉得糟糕去重构掉那你就是对lucene对整个搜索行业的最大贡献
横瓜(601069289)19:54:09
重构掉,是不可能的
横瓜(601069289)19:54:32
因为细节太多了,lucene没有浪费一个字节
横瓜(601069289)19:54:58
你想象一下,你得费多少时间去重构
横瓜(601069289)19:55:07
去改写索引
北京-solr(353833134)20:01:20
谁敢说lucene算法差
北京_GIS_李克华(570777808)20:02:07
差在哪儿啊
横瓜(601069289)20:02:15
例如字典用明码
无求(331083052)20:03:09
明码。。。就算你是技术人,也得花段时间解析吧。就算加密,照样可以解析
横瓜(601069289)20:03:14
例如:ytutyuytuiyuiuiiopppppppppoiiuuuu
横瓜(601069289)20:03:29
占用多少个字节
北京-solr(353833134)20:03:39
字典加密压缩
VSγ2008(184777092)20:04:06
都是前缀压缩的
横瓜(601069289)20:04:32
知道,但是那是很糟糕的
VSγ2008(184777092)20:04:57
哪里?说说你的观点?
横瓜(601069289)20:05:12
前缀压缩,对于没有前缀,那压缩不了的
北京-solr(353833134)20:06:04
看过源码的高手们出来啊
VSγ2008(184777092)20:06:16
那只是极少情况才出现的
横瓜(601069289)20:06:39
所以说LUCENE的作者是非常笨的,很勤奋的那种人
VSγ2008(184777092)20:06:45
lucene的term是有序的所以前缀压缩很有优势
横瓜(601069289)20:07:12
LUCENE索引没有一个字节浪费
横瓜(601069289)20:07:45
听起来很强,其实是勤奋的牛,不灵活
横瓜(601069289)20:09:14
lucene的term是有序的所以前缀压缩很有优势
对于没有前缀的,那问题很大
横瓜(601069289)20:09:39
看这个字串:ytutyuytuiyuiuiiopppppppppoiiuuuu,用前缀压缩是不起作用的,用这个性能也不行
横瓜(601069289)20:10:18
横瓜搜索在第一版的时候,就解决了这些问题
横瓜(601069289)20:11:14
横瓜索引很整齐,50%的空间是浪费的
横瓜(601069289)20:12:42
lucene作者能和我交谈一下,我相信以他的勤奋,lucene各项指标可以增进10倍是没有问题
广沪-暗恋(416428278)20:18:36
任何算法都有其适用场景
分享到:
相关推荐
lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮
Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用
LUCENE搜索引擎基本工作原理 详细介绍了搜索引擎的工作原理
Lucene搜索引擎开发权威经典(附盘源码)【于天恩】.zip
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1
介绍了Lucene的基础知识,包括Lucene的历史和发展情况、使用Lucene创建索引和执行搜索的基本方法以及中文分词的应用,最后做了两个应用项目。第2部分:数据解析。介绍解析不同格式数据(如Word、PDF等)的方法,包括...
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇 处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构 Lucene,实现了带有歧义消除功能的正向最大匹配算法...
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。 (3)优秀的面向对象的系统架构,使得对于Lucene...
这是基于lucene搜索引擎的java源码,里面数据库,包括建立索引,增量索引一应俱全,希望对大家有作用。
Lucene.Net +盘古分词 搜索引擎,Lucene.Net2.9.4.版本,vs2012开发,通过实例可以有初步的认识和了解
c#中文分词类库 可用来做搜索引擎分词 准确率90%,提供Lucene。net的支持
一个基于LUCENE搜索引擎项目例子一个基于LUCENE搜索引擎项目例子一个基于LUCENE搜索引擎项目例子
Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1Lucene搜索引擎1
本书基于Lucene的当前最新版本(2.1)精解了Lucene搜索引擎的相关知识,从基础知识到应用开发,精炼简洁,恰到好处。 本书包含了必要的理论,但以实践为主。所讲的理论都不是纸上谈兵,都是可以立即付诸实践进行...
做自己的搜索引擎-搜索引擎精解案例教程lucenen compass 搜索引擎框架
Lueene是一个强大的全文索引引擎工具包,...网的中文搜索引擎的系统结构,Lucene的索引和搜索,并且设计实现了一个自己的搜索引擎——易搜中文搜 索引擎。结果表明,基于Lucene的搜索引擎在索引和查找上的效率很高。
基于lucene技术的增量索引,实现索引的首次创建,动态增删改
用lucene对数据库建立索引及搜索.doc