1. 描述

数据挖掘之回归主要是预测字段类型为数值类型的字段与其他字段之间的关系,简要来说,就是线性关系。

2. 算法种类

数据挖掘中的回归模型使用的是多元回归算法,从历史的大量数据中,找到回归数值(目标)字段和其他相关字段之间的关系,并以回归算法来描述这些关系,再将这些关系规律用到已知其他相关字段,但回归(目标)字段不确定的数据上,预测或推断回归(目标)字段的数值。

3. 示例

如下图,我们有一张销量的数据表,记录了每年的销售额情况:

数据挖掘之回归分析

我们想预测2014年的销售额情况,下面我们通过FineBI商务智能平台的数据挖掘功能来寻找年份与销售额之间的关系,并得出2014年的预测结果。

3.1 数据准备

我们将该张数据表添加到BIdemo业务包中,数据表的添加过程详细请查看数据表管理

3.2 寻找规律

业务包创建好之后,点击BI>新建挖掘,业务包选择BIdemo影响因素绑定年份字段,预测目标为销售额字段,并添加一个条件过滤掉数据表中的无效数据,比如说,我们这里如果销售额小于1000,则属于无效数据,配置完成之后,点击预测按钮,则会在下方增加一列销售额_Prediction,该列数据显示的是通过预测出来的模型计算的预测值,通过与前面的销售额数据列的实际数据进行对比,可以看到数据相差不大,说明该预测模型准确性高,可用于预测2014年的数据,如下图:

数据挖掘回归步骤之寻找规律

预测完成之后,保存新建挖掘,会在业务包列表中新增一个名为数据挖掘业务包的业务包,该业务包在首次添加之后将不能被删除,如果要清除预测的模型,直接将在我创建的列表中将新建挖掘(或者是保存的新建挖掘)删除即可。
注:一定要保存数据挖掘。

3.3 数据挖掘(规律表现)

上面已经从大量数据中将数值指标和影响因素之间的关系预测出来了,下面我们应用这个关系来预测2014年的销售额。

  • 新建分析

点击BI>新建分析,拖曳一个表格组件至BI分析页面中,点击进入配置界面,业务包选择数据挖掘业务包,里面会展示所有的数据挖掘预测出来的模型,以数据表的形式存在,不同于原来的数据表,这里面多了一列XXX_Prediction,我们将年份拖曳到行表头中,销售额_Prediction拖曳到数值区域中,如下图:

数据挖掘回归步骤之规律表现

  • 开始预测

数据绑定好之后,就可以开始对2014年的销售额进行预测分析了,在数值区域中,点击需要预测的数值指标后面的下拉按钮,点击预测该指标,弹出输入预测参数对话框,输入需要预测的年份参数2014,如下图:

数据挖掘回归步骤之开始预测

注:FIneBI商务智能系统会自动判断数值区域中该指标是不是通过数据挖掘得来的预测指标,从而判断是否有预测该指标这个选项。
点击保存按钮之后,表格中就会多了一行2014年的数据,如下图:

数据挖掘回归效果图

 

此时,数据挖掘就全部完成。
注:如果要删除业务包中的预测模型,直接在我创建的列表中将保存的数据挖掘删除即可。