首页 欧洲联赛 正文

学习|决策树算法的介绍和应用-betway手机客户端_betway体育_必威体育app下载

机器学习概念

机器学习 (Machine Learning) 是近 20 多年鼓起的一门多范畴穿插学科,触及概率论、核算学、迫临论、凸剖析、算法杂乱度理论等多门学科。

机器学习理论首要是规划和剖析一些让核算机可以主动学习的算法。机器学习算法是一类从数据中主动剖析取得规矩,并运用规矩对不知道数据进行猜测的算法。由于学习算法中触及了许多的核算学理论,机器学习与核算揣度学联络尤为亲近,也被称为核算学习理论。在算法规划方面,机器学习理论重视可以完结的、卓有成效的学习算法。许多相关问题的算法杂乱度较高,而且很难找到固有的规矩,所以部分的机器学习研讨是开发简略处理的近似算法。

机器学习在数据发掘、核算机视觉、自然言语处理、生物特征辨认、搜索引擎、医学确诊、检测信用卡诈骗、证券市场剖析、DNA 序列测序、言语与手写辨认、战略游戏与机器人运用等范畴有着十分广泛的运用。它无疑是当时数据剖析范畴的一个热门内容。

算法分类

机器学习的算法繁复,其间许多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因而咱们可以依照不同的视点将其分类。本文首要经过学习办法和算法相似性这两个视点将机器学习算法进行分类。

学习办法


1 监督式学习:从给定的练习数据会集学习出一个函数,当新的数据到来时,可以依据这个函数猜测效果。监督学习的练习集需求包含输入和输出,也可以说是特征和方针。练习会集的方针是由人标示的。常见的监督式学习算法包含回归剖析和核算分类。

2 非监督式学习:与监督学习比较,练习集没有人为标示的效果。常见的非监督式学习算法有聚羊肉泡馍类。

3 半监督式学习:输入数据部分被标识,部分没有被标识,介于监督式学习与非监督式学习之间。常见的半监督式学习算法有支撑向量机。

4 强化学习:在这种学习方式下,输入数据作为对模型的反应,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的办法,在强化学习下,输入数据直接反应到模型,模型有必要对此马上作出调整。常见的强化学习算法有时间差学习。


算法相似性

1 决议计划树学习:依据数据的特点选用树状结构树立决议计划模型。决议计划树模型常常用来处理分类和回归问题。常见的算法包含 CART (Classification And Regre学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载ssion Tree)、ID3、C4.5、随机森林 (R穿越前方体会服andom Forest) 等。

2 回归算法:企图选用对差错的衡量来探究变量之间的联系的一类算法。常见的回归算法包含最小二乘法 (Least Square)、逻辑回归 (Logistic Regression)、逐渐式回归 (Stepwise R帅哥丁丁egression) 等。

3 聚类算法:一般依照中心点或许分层的办法对输入数据进行归并。一切的聚类算法都企图找到数据的内涵结构,以便依照最大的一起点将数据进行归类。常见的聚类算法包含 K-Means 算法以及希望最大化算法 (Expectation Maximization) 等。

4 人工神经网络:模仿生物神经网络,是一类方式匹配算法。一般用于处理分类和回归问题。人工神经网络算法包含感知器神经网络 (Perceptron Neural Network) 、反向传递 (Back Propagation) 和深度学习等。

5 集成算法:用一些相对较弱的学习模型独登时就相同的样本进行练习,然后把效果整合起来进行全体猜测。集成算法的首要难点在于终究集成哪些独立的较弱的学习模倒带型以及怎么把学习效果整合起来。这是一类十分强壮的算法,一起也十分盛行。常见的算法包含 Boosting、Bagging、AdaBoost、随机森林学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载 (Random Forest) 等。


决议计划树

决议计划树是附加概率效果的一个树状的决议计划图,是直观的运用核算概率剖析的图法。机器学习中决议计划树是一个猜测模型,它表明方针特点和方针值之间的一种映射,树中的每一个节点表明方针特点的判别条件,其分支表明契合节点条件的方针。树的叶子节点表破解示方针所属的猜测效果。

决议计划树事例

图 1. 决议计划树事例图

图 1 是一棵结构简略的决议计划树,用于猜测借款用户是否具有归还借款的才能。借款用户首要具有三个特点:是否具有房产,是否成婚,均匀月收入。每一个内部节点都表明一个特点条件判别,叶子节点表明借款用户是否具有归还才能。例如:用户甲没有房产,没有成婚,月收入 5K。经过决议计划树的根节点判别,用户甲契合右边分支 (具有房产为“否”);再判别是否成婚,用户甲契合左面分支 (是否成婚为否);然后判别月收入是否大于 4k,用户甲契合左面分支 (月收入大于 4K),该用户落在“可以归还”的叶子节点上。所以猜测用户甲具有归还借款才能。

决议计划树树立

本文上一节现已评论怎么用一棵决议计划树进行分类。本节将经过特征挑选、剪枝,介绍怎么依据已有的样本数据树立一棵决议计划树。

首要介绍下特征挑选。挑选一个适宜的特征作为判别节点,可以快速的分类,削减决议计划树的深度。决议计划树的方针便是把数据集按对应的类标签进行分类。最理想的情况是,经过特征的挑选能把不同类其他数据集贴上对应类标签。特征挑选的方针使得分类后的数据集比较纯。怎么衡量一个数据集纯度,这儿就需求引进数据纯度函数。下面将介绍两种表明数据纯度的函数。

1 信息增益


信息熵表明的是不确认度。均匀分布时,不确认度最大,此刻熵就最大。当挑选某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表明为信息增益。信息增益可以衡量某个特征对分类效果的影响巨细。

假设在样本数据集 D 中,混有 c 品种其他数据。构建决议计划树时,依据给定的样本数据集挑选某个特征值作为树的节点。在数据会集,可以核算出该数据中的信息熵:

图 2. 作用前的信息熵核算公式

其间 D 表明练习数据集,c 表明数据类别数,Pi 表明类别 i 样本数量占一切蜂王浆样本的份额。

对应数据集 D,学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载挑选特征 A 作为决议计划树判别节点时,在特征 A 作用后的信息熵的为 Info(D),核算如下:

图 3. 作用后的信息熵核算公式

其间 k 表明样本 D 被分为 k 个部分。

信息增益表明数据集 D 在特征 A 的作用后,其信息熵削减的值。公式如下:

图 4. 信息熵差值核算公式

关于决议计划树节点最适宜的特征挑选,便是 Gain(A) 值最大的特征。

2 基尼指数

基尼指数是另一种数据的不纯度的衡量办法,其公式为:

图 5. 基尼指数核算公式

其间 c 表明数据会集类其他数量,Pi 表明学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载类别 i 样本数量占一切样本的份额。

从该公式可以看出,当数据会集数据混合的程度越高,基尼指数也就越高。当数据集 D 只要一种数据类型,那么基尼指数的值灯光阑珊处为最低 0。

假如选取的特点为 A,那么割裂后的数据集 D 的基尼指数的核算公式为:

图 6. 割裂后的基尼指数核算公式

其间 k 表明样本 D 被分为 k 个部分,数据集 D 割裂成为 k 个 Dj 数据集。

关于特征选取,需求挑选最小的割裂后的基尼指数。也可以用基尼指数增益值作为决议计划树挑选特征的依据。公式如下:

图 7. 基尼指数差值核算公式

在决议计划树挑选特征时,应挑选基尼指数增益值最大的特征,作为该节点割裂条件。

接下来介绍剪枝。在分类模型树立的过程中,很简略呈现过拟合的现象。过拟合是指在模型学习练习中,练习样本到达十分高的迫临精度,但对查验样本的迫临差错跟着练习次数而呈现出先下降后上升的现象。过拟合时练习差错很小,可是查验差错很大,不利于实践运用。

决议计划树的过拟合现象可以经过剪枝进行必定的修正。剪枝分为预先剪枝和后剪枝两种。

预先剪枝指在决议计划树成长过程中,运用必定条件加以约束,使得发生彻底拟合的决议计划树之前就中止成长。预先剪枝的判别办法也有许多,比方信息增益小于必定阀值的时分经过剪枝使决议计划树中止成长。但怎么确认一个适宜的阀值也需求必定的依据,阀值太高导致模型拟合缺乏,阀值太低又导致模型过拟合。

后剪枝是在决议计划树学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载成长完结之后,依照自底向上的办法修剪决议计划树。后剪枝有两种办法,一种用新的叶子节点替换子树,该节点的猜测类由子树数据会集的大都类决议。另一种用子树中最常运用的分支替代子树。

预先剪枝或许过早的停止决议计划树的成长,后剪枝一般可以发生更好的作用。但后剪枝在子树被剪掉后,决议计划树成长的一部分核算就被浪费了。

决议计划树模型点评

树立了决议计划树模型后需求给出该模型的点评值,这样才可以来判别模型的好坏。学习算法模型运用练习集 (training set) 树立模型,运用校验集 (test set) 来点评模型。本文经过点评方针和点评办法来点评决议计划树模型。

点评方针有分类准确度、召回率、虚警率和精确度等。而这些方针都是依据混杂矩阵 (confusion matrix) 进行核算的。

混杂矩阵是用来点评监督式学习模型的精确性,矩阵的每一列代表一个类的实例猜测,而每一行表明一个实践的类的实例。以二类分类问题为例,如下表所示:

其间

P (Positive Sample):正例的样本数量。

N(Negative Sample):负例的样本数量。

TP(True Positive):正确猜测到的正例的数量。

FP(False Positive):把负例猜测成正例的数量。

FN(False Negative):把正例猜测成负例的数量。

TN(True Negative):正确猜测到发型规划的负例的数量。

依据混杂矩阵可以得到点评分类模型的方针有以下几种。

分类准确度,便是正负样本别离被正确分类的概率,核算公式为:

图 8. 分类准确度核算公式

召回率,便是正样本被辨认出的概率,核算公式为:

图 9. 召回率核算公式

虚警率,便是负样本被过错分为正样本的概率,核算公式为:

图 10. 虚警率核算公式

精确度,便是分类效果为正样本的情况真实性程度,核算公式为:

图 11. 精确度核算公式

点评办法有保存法、随机二次抽样、穿插验证和qq实名注册自助法等。

保存法 (holdout) 是点评分类模型功能的最基本的一种办法。将被符号的原始数据集分红练习集和查验集两份,练习集用于练习分类模型,查验集用于点评分类模型功能。但此办法不适用样本较小的情况,模型或许高度依靠练习集和查验集的构成。

随机二次抽样 (random subsampling) 是指屡次重复运用保存办法来改善分类器点评办法。相同此办法也不适用练习集数量缺乏的情况,而且也或许形成有些数据未被用于练习集。

穿插验证 (cross-validation) 是指把数据分红数量相同的 k 份,每次运用数据进行分类时,挑选其间一份作为查验集,剩余的 k-1 份为练习集,重复 k 次,正好使得每一份数据都被用于一次查验集 k-1 次练习集。该办法的长处是尽或许多的数据作为练习集数据,每一次练习集数据和查验集数据都是彼此独立的,追凶者也而且彻底覆盖了整个数据集。也存在一个缺陷,便是分类模型运转了 K 次,核算开支较大。

自助法 (bootstrap) 是指在其办法中,练习集数据选用的是有放回的抽样,即现已选取为练习集的数据又被放回本来的数据会集,使得该数据有时机能被再一次抽取。用于样本数不多的情况下,作用很好。

决学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载策树建模

在本节中,将经过 R 和 IBM SPSS 两种建模东西别离对其实践事例进行决议计划树建模。

R

R 是一个用于核算核算及核算制图的优异的开源软件,也是一个可以从大数据中获取有用信息的绝佳东西。它能在现在各种干流操作体系上装置运用,而且供给了许大都据办理、核算和绘图函数。

下面本节就将运用 R 所供给的强壮的函数库来构建一棵决议计划树并加以剪枝。

清单 1. 构建决议计划树及其剪枝的 R 代码

# 导入构建决议计划树所需求的库
library("rpart")
library("rpart.plot")
library("survival")
# 检查本次构建决议计划树所用的数据源
stagec
# 经过 rpart 函数构建决议计划树
fit <- rpart(Surv(pgtime,pgstat)~age+eet+g2+grade+gleason+ploidy,stagec,method="exp")
# 检查决议计划树的详细信息
print(fit)
printcp(fit)
# 制作构建完的决议计划树图
plot(fit, uniform=T, branch=0.6, compress=T)
text(fit, use.n=T)
# 经过 prune 函数剪枝
fit2 <- prune(fit, cp英文在线翻译=0.016)
# 制作剪枝完后的决议计划树图
plot(fit2, uniform=T, branch=0.6, compress=T)
text(fit2, use.n=T)

依据代码,运转过程如下:

1 导入需求的函数库。当然假如本地开发环境没有相应的库的话,还需求经过 install.packages 函数对库进行装置。

2 检查本次构建决议计划树的数据源。st学习|决议计划树算法的介绍和运用-betway手机客户端_betway体育_必威体育app下载agec 是一组前列腺癌复发的研讨数据。

3 经过 rpart 函数构建决议计划树,以研讨癌复发刘义周与患者年纪、肿瘤等级、癌细胞份额,癌细胞割裂情况等之间的联系。

4 检查决议计划树的详细信息。

5 制作构建完结的决议计划树图。

6 经过 prune 函数对该决议计划树进行恰当的剪枝,避免过拟合赤色欧米伽,使得树可以较好地反映数据内涵的规矩并在实践运用中有含义。

7 制作剪枝完后的决议计划树图。

该事例决议计划树的拟合效果与剪枝前后的树如下图所示:

图 12. 决议计划树事例拟合图

图 13. 未剪枝的决议计划树图

图 14. 剪枝后的决议计划树图

SPSS

IBM SPSS Modeler 是一个猜测剖析渠道,可以为个人、团队、体系和企业做决议计划供给猜测性信息。它可供给各种高档算法和技能 (包含文本剖析、实体剖析、决议计划办理与优化),帮助您挑选可完结更佳效果的操作。

在 SPSS Modeler 中有许多运用实例,其间就包含一个决议计划树算法模型的事例。此示例运用名为 druglearn.str 的流,此流引证名为 DRUG1n 的数据文件。这些文件可在任何 IBM SPSS Modeler 装置程序的 Demos 目录中找到。操作过程如下公交h:

1增加“变量文件”节点 英语字母表GRUGln,翻开该节点,增加 DRUGln 文件。

2 创立新字段 Na_to_K, 经过对 Na 和 K 数据的调查,发现可以用 Na 和 K 的份额来猜测药物 Y。

3 增加过滤器 (Discard Fields),过滤掉原始的字段 Nlucasa 和 K,避免在建模算法中重复运用。

4 增加类型节点 (Define Types),设置字段的人物,将药物字段设置为方针,其他的字段设置为输入。

5 增加 C5.0 节点,运用默许的参数设置。

6 点击运转,生成一个模型 Drug,如下图所示。

图 15. 模型流图

在生成模型 Drug 今后,咱们可以在模型页面中阅读 Drug 模型。翻开 Drug 模型今后,可在规矩阅读框中以决议计划树方式显现 C5.0 节点所生成的规矩集。还可以经过更杂乱的图表方式检查同一决议计划树。如下图所示:

图 16. 生成模型的决议计划树图

结束语

本文首要经过一个决议计划树的典型事例,侧重从特征挑选、剪枝等方面描绘决议计划树的构建,评论并研讨决议计划树模型点评原则,最终依据 R 言语和 SPSS 这两个东西,别离规划与完结了决议计划树模型的运用实例。经过较多的核算学公式和事例图钟表表,生动地展现了一棵决议计划树是怎么构建并将其运用到实践场景中去的。

本文也展开评论了爱宅分类算法之间的彼此比较和优缺陷,特征挑选与剪枝各种办法之间的彼此比较,各个点评办法的优缺陷等。经过这些评论与剖析,可以以更好的办法论来处理实践出产环境下的问题。

一起,决议计划树仅仅整个机器学习范畴的冰山一角,而机器学习范畴又是当时大数据剖析范畴的热门,因而还有许多许多值得咱们去学习、去研讨的当地。

原文链接:

https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decision徐梵溪tree-algorithm/index.html