知识库 : UDH Search分词功能使用说明

Edit Document

UDH S earch 分词功能使用说明

 

 

目录

一、概述

二、环境准备

2.1 参照 UDH 部署手册,搭建 Search 集群

2.2 查看分词功能是否生效

三、分词库修改

四、创建 Collection 及构建索引

4.1 构建 hbase

4.2 创建 Collection

4.3 创建 lily indexer 配置文件

4.4 构建索引

 

 

 

 

 

 

 

 

一、概述

UDH1.0.3增加 了在线上传下载分词库功能,使用者可以通过 UDH Manager手动查看 、修改 Search集群 分词 ,而 不用单独到操作每个 Search服务 ,简化了 Search分词 库管理工作。

二、环境准备

2 .1 参照UDH部署 手册, 搭建S earch 集群

通过UDH Manager 安装Search服务 的时候,同时会安装分词处理程序udh-search-ik 同时会在 的schema.xml模板 中添加应用分词功能 字段类型:text_ik

2.2 查看 分词功能是否生效

   打开Solr Web 管理界面 选择 已有的 collection,在A nalysis 界面 输入一段文字 看下分词情况,效果如下图:

三、分词库修改

3.1 进入 管理-> 分词 管理 下载 已有的分词 文件

3 .2根据需要修改分词 文件(注意 词库中每个中文词汇独立占一行, 文件编码需要 UTF-8 )。

3 .3 上传 修改后的分词 文件。

3.4 手动重启Search服务

四、创建Collection及构建索引

里以批量构建 hbase索引 的方式创建基于分词器的Collection

4 .1构建 hbase表

C:\Users\kongml\AppData\Local\Temp\SNAGHTML4ce60908.PNG

4. 2 创建Collection

$ solrctl instancedir --generate /tmp/hbase-demo

$ vim /tmp/hbase-demo/conf/schema.xml

   在schema.xml的fields标签 里添加:

<field name="info" type="text_ik" indexed="true" stored="true" />

然后 依次执行:

$ solrctl instancedir --create hbase-demo /tmp/hbase-demo

$ solrctl collection --create hbase-demo

4.3 创建lily indexer配置 文件

$ vim /tmp/ morphline-hbase-mapper.xml

 

$vim /etc/hbase-solr/conf/morphlines-demo.conf

4 .4构建索引

执行 命令:

这个过程可能需要几分钟,出现“hadoop.ForkedMapReduceIndexerTool: Succeeded with job: jobName”语句表明执行成功。

 

注:构建 collection 和构建索引阶段如果出现Direct buffer memory相关错误时,可以先关闭 solr_hdfs_blockcache_direct_memory_allocation特性,具体见 s earch配置项页面。

Attachments:

UDH Search分词功能使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)