机器学习流程

深度学习笔记参考

https://blog.csdn.net/zouxy09/article/details/8775360

四种基本神经网络参考

https://blog.csdn.net/kwame211/article/details/110382931

基础概念

注：未特殊声明时*表示必填

数据集：特征值+目标值

按目标值分类

监督学习

有目标值类型

1 2	类别分类问题连续型数据回归问题

分类：k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、SVM

回归：线性回归、岭回归

生成模型

学习总体情况

判别模型

学习类别之间的差异

没有目标值

聚类：k-means，高斯混合模型

其他学习

半监督学习：给少量数据和大量未标注数据
增强学习：对于输出结果只给出评价信息而不给出正确答案
多任务信息：多个相关任务一起学习

机器学习开发流程

获取数据->数据处理->特征工程->机器学习算法训练模型->模型评估->应用

数据处理

数据清洗

完整性、合法性、一致性、唯一性、权威性

数据采样

避免数据不平衡，比如正类与负类样本数量差距过大

解决方法：

过采样：随机复制少数类样本数量
欠采样：随机消除多数类样本数量

数据集拆分

训练数据集：构建学习模型

验证数据集：辅助或在构建过程中评估，用于调整参数

测试数据集：最终评估

拆分方法：

留出法：直接对数据集进行划分，如70%/30%
k-折交叉验证法：将数据集划分为k个大小相似的互斥子集，进行k组训练和测试，k常取10

特征工程

特征选择

过滤法，包裹法，嵌入法

特征降维

主成分分析（PCA）

线性判别分析（LDA）

特征编码

one-hot

语义编码

规范化

机器学习方法

分类问题

决策树

由不同的特征值构建分支

过程：从根节点开始测试待分类项中相应的特征属性，并按照输入值输出分支，直到叶子节点作为决策结果

决策树特征选择

信息熵

不等概率的信息熵
信息增益=信息熵（前）-信息熵（后）
信息增益比=惩罚参数*信息增益；特征个数越多惩罚参数越小
信息增益率

其中Gain(D,a)为该分支的信息熵数值
基尼系数：表示集合不确定性，越大表示不平等程度越高；一个属性的基尼指数为该属性所有分支的加权和

决策树构建算法

ID3算法

在所有信息中选择获得该信息之后信息增益最大的信息作为根节点(如纹理信息获得信息增益最大，为0.381bits)，之后同理。

C4.5算法

对于连续值得处理，将一个属性的数值从小到大排序，分别取不同的阈值进行分类，计算信息增益，选取信息增益最大得阈值作为所取阈值。

缺失值处理

CART算法

计算每个属性的基尼指数，在所有属性中选择基尼指数最小的作为根节点，以此类推，当子节点的基尼指数不再降低(不变或升高)时中止分叉

决策树剪枝

理想的决策树：叶子节点最少，叶子节点深度最小，或两者的结合

修正方法：

预剪枝(自上而下)

当一个属性分支之后正确分类的样本数比之前少时取消该分支
- 预先设置高度，当决策树到达该高度时停止生长
- 到达某节点实例具有相同的特征向量
- 定义一个阈值（实例个数、系统性能增益等）
后剪枝(自下而上)

与预剪枝相反，从最底层叶子节点开始，判断剪枝之后正确分类的样本数是否比之前少，正确数减小则不剪

先构建决策树，对置信度不够的结点字数用叶子节点代替，该叶子节点类标号用该结点子树中最频繁的类标记。这种方法相比于预剪枝更为常用