使用决策树对分类问题进行实验

模式识别实验课
1．1决策树回归的工作基础或实验条件
（1）我们组的主要任务是首先介绍什么时决策树和信息增益，平均误差，Gini系数等一些基础概念，之后手动推演和上机实践实现决策树的分类与回归
（2）我的工作是介绍决策树分类理论，并根据鸢尾花数据集，通过python上机验证。
1．2决策树分类的实验条件
使用了python作为主要工具。
1．3 设计思想
使用基尼系数作为划分标准，基尼系数越小，则不纯度越低，区分的越彻底。
假设一个数据集中有K个类别，第K个类别的概率为pk,则基尼系数表达式为：

对于个给定的样本D，假设有K个类别，第k个类别的数量为CkCk,则样本D的基尼系数表达式为:

1．5运行结果及分析
首先，通过键盘交互式按键“T”，开始训练；训练集和测试集按4：1进行划分，前四份用于训练，后一份用于测试，并用混淆矩阵来评判分类后的结果。
通过掉用封装好的决策树API接口，默认的参数虽然是最优的担并不适用于任何数据集，不用的需求也相应着模型的参数不同。通过网格搜索交叉验证的方式来寻找模型的最优参数，以下为对max_depth；min_samples_split ；min_samples_leaf 这三个参数进行调优。
注：①max_depth（树的最大深度）：默认为None，此时决策树在建立子树的时候不会限制子树的深度。也可以设置具体的整数，一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布