UDH S earch 分词功能使用说明
目录
一、概述
UDH1.0.3增加 了在线上传下载分词库功能,使用者可以通过 UDH Manager手动查看 、修改 Search集群 的 分词 库 ,而 不用单独到操作每个 Search服务 ,简化了 Search分词 库管理工作。
二、环境准备
2 .1 参照UDH部署 手册, 搭建S earch 集群
通过UDH Manager 安装Search服务 的时候,同时会安装分词处理程序udh-search-ik , 同时会在 的schema.xml模板 中添加应用分词功能 的 字段类型:text_ik 。
2.2 查看 分词功能是否生效
打开Solr Web 管理界面 , 选择 已有的 collection,在A nalysis 界面 输入一段文字 , 看下分词情况,效果如下图:
三、分词库修改
3.1 进入 管理-> 分词 管理 下载 已有的分词 文件 。
3 .2根据需要修改分词 文件(注意 , 词库中每个中文词汇独立占一行, 文件编码需要 UTF-8 )。
3 .3 上传 修改后的分词 文件。
3.4 手动重启Search服务 。
四、创建Collection及构建索引
这 里以批量构建 hbase索引 的方式创建基于分词器的Collection 。
4 .1构建 hbase表
4. 2 创建Collection
$ solrctl instancedir --generate /tmp/hbase-demo
$ vim /tmp/hbase-demo/conf/schema.xml
在schema.xml的fields标签 里添加:
<field name="info" type="text_ik" indexed="true" stored="true" />
然后 依次执行:
$ solrctl instancedir --create hbase-demo /tmp/hbase-demo
$ solrctl collection --create hbase-demo
4.3 创建lily indexer配置 文件
$ vim /tmp/ morphline-hbase-mapper.xml
$vim /etc/hbase-solr/conf/morphlines-demo.conf
4 .4构建索引
执行 命令:
这个过程可能需要几分钟,出现“hadoop.ForkedMapReduceIndexerTool: Succeeded with job: jobName”语句表明执行成功。
注:构建 collection 和构建索引阶段如果出现Direct buffer memory相关错误时,可以先关闭 solr_hdfs_blockcache_direct_memory_allocation特性,具体见 s earch配置项页面。