知识库 : Apriori节点使用说明

Edit Document

 

 

 

 

 

 

 

 

 

Apriori节点使用说明

 

 

 

作者 :张青松


目录

1.               建立工作流

1.1.               数据处理

1.1.1.               内容组成项集

1.1.2.               表头组成项集

2.               设置 Apriori 模型参数并执行

3.               Apriori 执行结果解释

 

1.     建立工作流

Apriori 节点直接与数据源连接,输入数据。

1 Apriori 工作流

1.1.     数据处理

数据处理的目的是,将每一个项集装换成 BitVector 或者 CollectionColumn 类型。根据实际情况数据可以分为两大类:数据表的表头组成项集、数据表内容组成项集。下面以关联规则常用的购物车为例,描述数据的处理过程。打开 Apriori 的设置界面。

1.1.1. 内容组成项集

1  CollectionColumn 类型输入数据

 

如上表所示,每一行表示一个购物车中商品名称。这种类型的输入数据,将生成一个 CollectionColumn 列用来计算频繁项集。

针对这种类型输入数据,在设置面板的设置页签中的项集生成方式的下拉菜单中,选择“内容”,并根据需要选择是否忽略空值。在下方的表中选择用来生成 CollectionColumn 列的数据列。

2  Apriori 设置界面

1.1.2. 表头组成项集

2  bitvector 类型输入数据

 

如上表,表头为所有商品。每一行表示个购物车,表中的元素用于标示对应的购物车中是否购买了该商品。这里,用 1 表示购买, 0 表示未购买。这种输入数据将生成一个 BitVector 类型的列来计算频繁项集。

针对表头为项集中的项的输入数据,选择项集生成方式为“列头”。并根据表中的标示信息进一步设置。

3  Apriori 对于 bitvector 输入数据的设置

 

针对表头为项集组成部分的数据,转换的目的是将标示信息转换成只含有 0 1 bit 表示。根据输入数据中表示信息的类型分为以下两种处理。

1            标示信息为字符串

选择字符串列。为了将字符串转化成 bit ,选择正则表达式或者通配符匹配,并设置匹配中的设置为 1 ,反之为 0 ;或者匹配中的为 0 ,反之为 1 。以及大小写是否敏感等等。

在下方的表中只显示类型为字符串的列,选择用来生成 BitVector 的列。

字符串类型生成 bitvector 设置

 

2            标示信息为数字类型

选择数字列 并设置阈值 。阈值的作用是如果标示信息的数字不小于设定的阈值,用 1 表示,反之则为 0.

阈值的设置分为使用固定值和该列的均值的百分比。

数值类型生成 bitvector 设置

2.     设置 Apriori 模型参数并执行

根据实际情况设置 Apriori 的最小项集数量,最小支持度,最小置信度和前项是否排序等信息。

5  Apriori 模型参数设置

 

保存并执行 Apriori 节点

3.     Apriori 执行结果解释

根据输入数据设置适当的参数并执行 得到的结果如 表,

3  Apriori 执行结果举例

 

表中的表头依次表示 支持后项 支持前项 置信度 支持度 和提升度。每一行表示一个规则。

Attachments:

Apriori节点使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)
Apriori节点使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)
Apriori节点使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)
Apriori节点使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)
Apriori节点使用说明.docx (application/vnd.openxmlformats-officedocument.wordprocessingml.document)