基于H Base 模糊查询的RowKey 设计

一、概述

HB ase 作为一种 kv数据库，能够很好的面对高吞吐率的在线数据读写服务，但是在非 RowKey字段的条件查询上，性能表现就不是太理想，本文探讨一种通过对Row Key 的设计，提升非R owKey 字段模糊查询性能的设计方法。

二、业务场景

医院一般检验流程：检验申请单( bill )→检验报告（report ），现在要求能够通过申请单号以及检验指标对检验报告进行快速模糊查询。其中申请单号 ( OrderNo ) 以及检验指标代码 ( TestCode ) 是检验报告的两个字段。

三、 R owKey 设计

如果直接对检验报告的两个字段进行模糊匹配查询，HB ase 需要扫描整个数据集，逐条进行筛选，性能表现可想而知。

为了提升查询性能，我们要想办法把这两个字段组合到表的 RowK ey 里，初步想法：

RowKey	f1
RowKey	OrderNo	TestCode	…
0001_2003_ *	1	2003
0002_1025_ *	2	1025

R owKey 由申请单号和检验指标代码组合而成，当然这两个字段外还会有其它拼接值，比如时间戳、序号等，这些就不再展开说。申请单号作为 Row Key 的前缀，如果有基于申请单号的查询，可以直接走 HBase的前缀查询，性能会非常高，第二字段是检验指标代码，如果有基于检验指标代码的查询，可以走 HBase的模糊查询，两个字段的组合情况，就不一一说了，因为最终它都能落地到以上两种方式的查询。

四、过滤器选择

前缀查询用 PrefixFilter ，很简单，直接上代码：

模糊查询用 FuzzyRowFilter ，相对复杂一点，假如，我们要查询检验指标代码是1025的所有检验报告，代码如下：

FuzzyRowFilter 需要把模糊字段值组织成 P air 对， firt是定长的 RowKey串，其中模糊匹配部分用 ?或 \\x00 占位， second是first的掩码，模糊匹配部分是 1，固定部分是 0，first和second长度相同。

五、进一步说明

前提条件：

1、在 HBase 装入数据前，需要有 R owKey 的设计规划。

2、 HBase RowKey 的每个组合部分都要固定长度，不够长度的要有填充策略。

知识库 : 基于HBase模糊查询的RowKey设计

一、概述

二、业务场景

三、 R owKey 设计

四、过滤器选择

五、进一步说明

Attachments:

知识库 : 基于HBase模糊查询的RowKey设计

一、 概述

二、业务场景

三 、 R owKey 设计

四 、过滤器选择

五 、进一步说明

Attachments:

一、概述

三、 R owKey 设计

四、过滤器选择

五、进一步说明