博客
关于我
百面机器学习—3.逻辑回归与决策树要点总结
阅读量:277 次
发布时间:2019-03-01

本文共 1669 字,大约阅读时间需要 5 分钟。

逻辑回归与决策树分析

一、逻辑回归

1. 逻辑回归公式推导

逻辑回归是一种简单的线性分类模型,适用于二分类问题。其核心公式可以从以下四个方面展开:

  • 伯努利过程:输入特征向量 $x$,输出一个二元类别的概率分布。
  • 极大似然估计:通过最大化似然函数来确定参数 $\theta$,使得模型能够拟合数据。
  • 损失函数:采用交叉熵损失函数来衡量预测结果与真实结果的差异。
  • 梯度下降:通过优化算法不断更新参数,逐步逼近最优解。
  • 逻辑回归的预测结果可以表示为:

    $$\hat{y}(\theta_j) = \sigma(w^T x_j + b)$$

    其中 $\sigma$ 是sigmoid函数,$w$ 和 $b$ 是模型参数。

    2. 逻辑回归的优缺点

    优点:

  • 形式简单:模型易于理解,特征权重直观反映特征影响。
  • 模型效果:在特征工程合理的情况下,效果可接受且开发效率高。
  • 训练速度快:对特征数量敏感,适合小规模特征集。
  • 资源占用低:仅需存储特征值,适合内存有限的环境。
  • 结果调整方便:输出概率分数,可通过阈值直接分类。
  • 缺点:

  • 准确率有限:难以拟合复杂数据分布。
  • 特征工程依赖:难以处理不平衡数据。
  • 线性假设限制:无法处理非线性数据。
  • 特征选择有限:需要额外工具(如GBDT)辅助特征筛选。
  • 3. 为什么需要归一化?

    归一化的作用在于:

    • 收敛速度:使不同量纲特征处于同一范围,减少方差较大的特征影响。
    • 模型精度:提升预测结果的准确性。

    4. 连续特征离散化的作用

    离散化的好处包括:

    • 特征工程简化:将连续值转换为离散特征,便于模型训练。
    • 计算效率提升:稀疏向量运算加快,内存占用减少。
    • 异常处理:离散化后的特征对异常值鲁棒性更好。
    • 非线性表达:通过特征交叉提升模型表达能力。

    5. 逻辑回归能否解决非线性问题?

    是的,通过引入核技巧(Kernel Trick),逻辑回归可以处理非线性分类问题。然而,核方法通常隐式实现,无法直接从低维映射到高维。与SVM相比,逻辑回归的参数存储量较低,但在非线性分类中,SVM更常用。


    二、决策树

    1. 决策树算法总结

    1.1 ID3—信息增益

    ID3通过信息增益选择划分特征,信息增益计算公式为:$$IG(A,D) = H(D) - H(D|A)$$其中 $H(D)$ 为数据集 $D$ 的熵,$H(D|A)$ 为条件熵。

    1.2 C4.5—信息增益比

    C4.5改进了ID3,引入信息增益比:$$IGB(A,D) = \frac{IG(A,D)}{H(A,D)}$$信息增益比通过惩罚取值多的特征,避免过拟合。

    1.3 CART—基尼指数

    CART使用基尼指数最小化准则:$$Gini = p_l \cdot (1 - p_r) + p_r \cdot (1 - p_l)$$其中 $p_l$ 和 $p_r$ 分别为左、右子树的错误率。

    1.4 算法对比

  • C4.5 vs ID3:C4.5在小数据集上表现更好,信息增益比克服了ID3的偏向。
  • 连续型变量处理:C4.5和CART支持连续型变量,通过排序和二值划分转换为离散特征。
  • 多任务能力:CART支持分类和回归,适合多输出问题。
  • 2. 为什么需要剪枝?

    剪枝用于防止过拟合:

    • 预剪枝:在节点划分前估计划分性能,若无法提升则停止划分。
    • 后剪枝:自下而上检查节点,若改善泛化性能则剪枝。

    3. 为什么信息增益比信息增益更佳?

    信息增益比通过特征熵惩罚取值多的特征,避免对多值特征过度依赖。

    4. C4.5对ID3的改进

  • 信息增益率:解决信息增益偏向取值多的特征问题。
  • 连续属性离散化:通过排序划分转换为离散特征。
  • 缺失值处理:通过权重分配对缺失值样本进行划分。

  • 决策树常见问题解答

    1. 如何选择最优划分属性(存在缺失值)?

    信息增益计算时,考虑无缺失值样本的比例乘以信息增益。

    2. 如何划分缺失值样本?

    通过权重分配,将缺失值样本按比例划分到各分支。

    3. 测试样本属性值不完整时如何分类?

    在决策树构造完成后,采用插值或其他方法处理不完整属性,确保预测结果合理。

    转载地址:http://eysv.baihongyu.com/

    你可能感兴趣的文章
    npm安装教程
    查看>>
    npm报错Cannot find module ‘webpack‘ Require stack
    查看>>
    npm报错Failed at the node-sass@4.14.1 postinstall script
    查看>>
    npm报错fatal: Could not read from remote repository
    查看>>
    npm报错File to import not found or unreadable: @/assets/styles/global.scss.
    查看>>
    npm报错TypeError: this.getOptions is not a function
    查看>>
    npm报错unable to access ‘https://github.com/sohee-lee7/Squire.git/‘
    查看>>
    npm淘宝镜像过期npm ERR! request to https://registry.npm.taobao.org/vuex failed, reason: certificate has ex
    查看>>
    npm版本过高问题
    查看>>
    npm的“--force“和“--legacy-peer-deps“参数
    查看>>
    npm的安装和更新---npm工作笔记002
    查看>>
    npm的常用操作---npm工作笔记003
    查看>>
    npm的常用配置项---npm工作笔记004
    查看>>
    npm的问题:config global `--global`, `--local` are deprecated. Use `--location=global` instead 的解决办法
    查看>>
    npm编译报错You may need an additional loader to handle the result of these loaders
    查看>>
    npm设置淘宝镜像、升级等
    查看>>
    npm设置源地址,npm官方地址
    查看>>
    npm设置镜像如淘宝:http://npm.taobao.org/
    查看>>
    npm配置安装最新淘宝镜像,旧镜像会errror
    查看>>
    NPM酷库052:sax,按流解析XML
    查看>>