站内搜索: 请输入搜索关键词

当前页面: 开发资料首页JSP 专题请大家看我结合Lucene做的电影搜索引擎

请大家看我结合Lucene做的电影搜索引擎

摘要: 请大家看我结合Lucene做的电影搜索引擎


并非广告贴,主要是想和大家讨论技术。
地址 http://search.mdbchina.com

核心是Lucene 2.0,中文分词是我自己搞得,分词算法也是我自己独创的,有拼音搜索,兼容繁体中文搜索,错别字纠正,有搜索建议,还有相关搜索功能列出相关搜索关键词。

我自己搞的分词主要有一下一些类
ChineseAnalyzer: 不是Lucene文档里的那个,是我自己堆出来的
ChineseTokenizer: 不是Lucene文档里的那个,我自己整的分词器
ChineseTokenizerConstants: 一看便知
ChineseTokenizerTokenManager: 对StandardTokenizerTokenManager的“补丁”
ChineseSimplificationFilter: 繁体转简体过滤器

我没有使用公认的模式,即:中文分词->******Analyzer,我选择了更为底层的方法,创新出我自己的ChineseAnalyzer,请各位高人试用。


up


做得不错, 速度挺快的


恩不错,帮顶一下


very good!


不错,不过从纯粹业务的角度,那个拼音搜索似乎没有必要,不如添加年份,演员,导演,片商,类型之类的选项


拼音搜索也很重要,演员名字拗口很常见,这个时候输入拼音就可以定位到他


年份,演员,导演,片商,类型这些已经在搜索之列,搜索引擎会自动判断,如果输入2006就列出2006年上映的影片,如果输入梁朝伟就列出梁师傅的电影,如果输入动作片就列出所有动作片,导演,片商都是类似的


不错啊 帮顶上去


http://jf.jf.cn


好想能拜读一下楼主的CODE呀!


挺强的!



ChineseSimplificationFilter: 繁体转简体过滤器

请问LZ,如何判断字符是 "简体"还是"繁体"???


-----------------
www.ruansou.com 小第做的搜索引擎


有一个字典,大概两千多个字而已


好,鼓励


liuguangshui@163.com

给我一份谢谢拉!


↑返回目录
前一篇: 连接sybase数据库怎么写
后一篇: struts 中的logic:equal嵌套问题