当前页面: 开发资料首页 → JSP 专题 → 请大家看我结合Lucene做的电影搜索引擎

请大家看我结合Lucene做的电影搜索引擎

摘要: 请大家看我结合Lucene做的电影搜索引擎

并非广告贴，主要是想和大家讨论技术。
地址 http://search.mdbchina.com

核心是Lucene 2.0，中文分词是我自己搞得，分词算法也是我自己独创的，有拼音搜索，兼容繁体中文搜索，错别字纠正，有搜索建议，还有相关搜索功能列出相关搜索关键词。

我自己搞的分词主要有一下一些类
ChineseAnalyzer: 不是Lucene文档里的那个，是我自己堆出来的
ChineseTokenizer: 不是Lucene文档里的那个，我自己整的分词器
ChineseTokenizerConstants: 一看便知
ChineseTokenizerTokenManager: 对StandardTokenizerTokenManager的“补丁”
ChineseSimplificationFilter: 繁体转简体过滤器

我没有使用公认的模式，即：中文分词->******Analyzer，我选择了更为底层的方法，创新出我自己的ChineseAnalyzer，请各位高人试用。

做得不错, 速度挺快的

恩不错,帮顶一下

very good!

不错,不过从纯粹业务的角度,那个拼音搜索似乎没有必要,不如添加年份,演员,导演,片商,类型之类的选项

拼音搜索也很重要，演员名字拗口很常见，这个时候输入拼音就可以定位到他

年份,演员,导演,片商,类型这些已经在搜索之列，搜索引擎会自动判断，如果输入2006就列出2006年上映的影片，如果输入梁朝伟就列出梁师傅的电影，如果输入动作片就列出所有动作片，导演，片商都是类似的

不错啊帮顶上去

http://jf.jf.cn

好想能拜读一下楼主的CODE呀!

挺强的！

ChineseSimplificationFilter: 繁体转简体过滤器

请问LZ,如何判断字符是 "简体"还是"繁体"???

-----------------
www.ruansou.com 小第做的搜索引擎

有一个字典，大概两千多个字而已

好，鼓励

liuguangshui@163.com

给我一份谢谢拉！

↑返回目录
前一篇: 连接sybase数据库怎么写
后一篇: struts 中的logic:equal嵌套问题