中文分词mmseg4j+solr 5.3.1配置 - 蓝色飞翔 - ITeye博客

`

yiduwangkai

浏览: 106213 次
性别:
来自: 上海

最近访客更多访客>>

xuwenyan

beijing3721

天亮了说晚安

一剪梅

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

中文分词mmseg4j+solr 5.3.1配置

博客分类：

mmseg4j
solr

solr mmseg4j 中文分词

阅读更多

基础环境：
solr 5.3.1
mmseg4j-solr-2.3.0.jar
mmseg4j-core-1.10.0.jar
CentOS release 6.2 (Final)
java version "1.7.0_71"

jar添加：
位置：solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib
配置：
在schema.xml中加上如下配置

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
        </fieldtype>
        <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="my-ext-dic" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
</fieldtype>


重新启动环境，就可以在solr 管理台看到对应的分词器了

分享到：

solr UTC时区的问题 | solr的自带的DIH进行增量索引

2016-01-10 14:32
浏览 2120
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mmseg4j-solr总共4个文件: 里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件，其中： mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...

mmseg4j-solr-2.4.0.jar: solr6.3下好用的mmseg4j分词库，测试可用。

mmseg4j-solr-2.3.0.jar: mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包

mmseg4j-solr-mmseg4j-solr-2.2.0.zip: mmseg4j-solr-mmseg4j-solr-2.2.0.zip

solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar: mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包，该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar: 本人用的solr是4.10的，经过本人亲测可用，放心下载，包含以下3个jar包： mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

solr mmseg4j 中文分词器: mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

mmseg4j-solr全版本及配置: 包里包含了至今mmseg4j的所有版本及版本对应solr版本说明，还有solr配置和自定义词典路径相关配置文章

mmseg4j-solr-2.1.0-with-mmseg4j-core.zip: 与solr4.8匹配的mmseg4j分词器的版本

mmseg4j-solr-2.3.2-with-mmseg4j-core: 该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`，其中solr-2.3.2不是官方的版本，该版本有改动，使得mmseg4j可以很好的支持Solr6，如果你的Solr低于Solr6，请使用官方的mmseg4j-solr-2.3.0.jar...

solr6配置mmseg4j: solr6配置mmseg4j,里面包含mmseg4j需要jar包、dic文件、详细配置说明文档，里面有详细截图和需要文件

mmseg4j-solr-2.3.0&mmseg4j;-core.zip: mmseg4j-core-1.10.0+mmseg4j-solr-2.3.0()mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ])

Tomcat+Solr+MMseg4j配置: Tomcat+Solr+MMseg4j的配置,文档中附带资源下载地址

中文分词器(mmseg4j + luncene5.X)源码+jar包: 中文分词器 mmseg4j luncene5.X 源码 jar包

tomcat+solr3.6+mmseg4j: tomcat+solr3.6+mmseg4j 整合+使用例子

solr6配置mmseg4j所需dic文件和jar包: solr6配置mmseg4j所需dic文件和jar包，包括word.dic，mmseg4j-core-1.10.0.jar，mmseg4j-solr-2.3.0.jar

mmseg4j-solr-master: 中文分词包使用 1.mmseg4j中文分词包（下载、安装与运行） 2.分词方法与效果分析 3.分词包算法学习 4.分词结果 5.词云分析

mmseg4j-solr-2.3.1-SNAPSHOT.jar: mmseg4j-solr-2.3.1-SNAPSHOT.jar

mmseg4j-solr-2.2.0-with-mmseg4j-core.zip: 中文分词支持Solr 4.9版本，

兼容solr4.10.3的mmseg4j-1.9.1分词器: 兼容solr4.10.3的mmseg4j-1.9.1分词器

Global site tag (gtag.js) - Google Analytics