分享、学习、提高
2009/06/24 09:19
文章作者:Enjoy 转载请注明原文链接。
Coreseek是一款基于Sphinx的开源检索引擎,支持Tb级的全文数据索引,专门为中文用户提供免费开源的中文全文检索系统。

找了下在官方都没看到安装的方法,就参考了官方论坛有人的提问解答和网上人写的安装记录,安装的还算顺利,记录一下。

下载最新版csft-3.1,安装
tar zxf mmseg-3.1.tar.gz
cd mmseg-3.1
./configure --prefix=/usr/local/mmseg
make
make install
cd ../

yum install -y python python-devel
tar zxf csft-3.1.tar.gz
cd csft-3.1
./configure --prefix=/usr/local/coreseek --with-python --with-mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib/
make
make install


安装完后在/usr/local/coreseek 有三个目录,bin,etc和var。
创建dict目录
mkdir /usr/local/coreseek/dict/

产生字典
cd /root/soft/mmseg-3.1/data
/usr/local/mmseg/bin/mmseg -u unigram.txt
产生了unigram.txt.uni,移到相应目录。
cp unigram.txt.uni /usr/local/coreseek/dict/uni.lib

创建 /usr/local/coreseek/dict/mmseg.ini 内容:

[mmseg]
merge_number_and_ascii=1;
number_and_ascii_joint=-;
compress_space=0;
seperate_number_ascii=1;

#merge_number_and_ascii: 字母和数字连续出现是非切分
#number_and_ascii_joint:连接数字和字母可用的符号,如'-' '.' 等
#compress_space:暂时无效
#seperate_number_ascii:是否拆分数字,如 1988 -> 1/x 9/x 8/x 8/x


安装完成。

测试10w条数据,只索引标题,启用了分词,程序使用其php的api接口,根据返回的ID从mysql中获取数据。搜索的一般响应时间都在0.015秒以内,相当的快啊。

参考:
sphinx实现主索引+增量索引
qdsxm Email Homepage
2009/08/05 09:09
我想问下安装完coreseek后,要重新编译mysql么?
enjoy 回复于 2009/08/05 23:46
我没有重编译mysql。
Liang
2009/07/01 20:06
你好,coreseek网站出问题了,我需要csft 3.1 和 mmseg 3.1的源代码,能否帮个忙?非常感谢!

liangliang at yahoo.cn
enjoy 回复于 2009/07/07 10:44
咦,前几天我发现不能访问,403 Forbidden。没想到现在还不能访问。
分页: 1/1 第一页 1 最后页
发表评论
表情
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
昵称   密码   游客无需密码
网址   电邮   [注册]