当前页面: 开发资料首页 → JSP 专题 → 请大家看我结合Lucene做的电影搜索引擎
请大家看我结合Lucene做的电影搜索引擎
摘要: 请大家看我结合Lucene做的电影搜索引擎
并非广告贴,主要是想和大家讨论技术。
地址 http://search.mdbchina.com
核心是Lucene 2.0,中文分词是我自己搞得,分词算法也是我自己独创的,有拼音搜索,兼容繁体中文搜索,错别字纠正,有搜索建议,还有相关搜索功能列出相关搜索关键词。
我自己搞的分词主要有一下一些类
ChineseAnalyzer: 不是Lucene文档里的那个,是我自己堆出来的
ChineseTokenizer: 不是Lucene文档里的那个,我自己整的分词器
ChineseTokenizerConstants: 一看便知
ChineseTokenizerTokenManager: 对StandardTokenizerTokenManager的“补丁”
ChineseSimplificationFilter: 繁体转简体过滤器
我没有使用公认的模式,即:中文分词->******Analyzer,我选择了更为底层的方法,创新出我自己的ChineseAnalyzer,请各位高人试用。
up
做得不错, 速度挺快的
恩不错,帮顶一下
very good!
不错,不过从纯粹业务的角度,那个拼音搜索似乎没有必要,不如添加年份,演员,导演,片商,类型之类的选项
拼音搜索也很重要,演员名字拗口很常见,这个时候输入拼音就可以定位到他
年份,演员,导演,片商,类型这些已经在搜索之列,搜索引擎会自动判断,如果输入2006就列出2006年上映的影片,如果输入梁朝伟就列出梁师傅的电影,如果输入动作片就列出所有动作片,导演,片商都是类似的
不错啊 帮顶上去
http://jf.jf.cn
好想能拜读一下楼主的CODE呀!
挺强的!
ChineseSimplificationFilter: 繁体转简体过滤器
请问LZ,如何判断字符是 "简体"还是"繁体"???
-----------------
www.ruansou.com 小第做的搜索引擎
有一个字典,大概两千多个字而已
好,鼓励
liuguangshui@163.com
给我一份谢谢拉!