顾文强
顾文强
Published on 2025-03-02 / 4 Visits
0
0

分类和回归

分类和回归是监督学习中两种主要的任务类型,它们在输出类型、应用场景、模型选择、损失函数及评估指标等方面存在显著差异。以下是对两者的详细对比:

1. 输出类型

  • 分类:预测离散的类别标签。例如:

    • 二分类:垃圾邮件检测(是/否)。

    • 多分类:手写数字识别(0-9)。

  • 回归:预测连续的数值。例如:

    • 房价预测(如100.5万元)、温度预测(如25.3℃)。

2. 应用场景

  • 分类适用于需要明确类别划分的任务,如疾病诊断(阳性/阴性)、图像识别(猫/狗)。

  • 回归适用于需要数值预测的任务,如股票价格趋势、销售额预测。

3. 模型选择

  • 分类常用模型

    • 逻辑回归(尽管名称含“回归”,实为分类模型)、支持向量机(SVM)、决策树、随机森林、神经网络(Softmax输出层)。

  • 回归常用模型

    • 线性回归、多项式回归、决策树回归、随机森林回归、神经网络(线性输出层)。

  • 两者兼用模型

    • 决策树(通过调整输出类型)、神经网络(通过调整输出层结构)。

4. 损失函数

  • 分类

    • 交叉熵损失(Cross-Entropy Loss):衡量预测概率分布与真实标签的差异。

    • 对数损失(Log Loss):常用于逻辑回归。

  • 回归

    • 均方误差(MSE):放大大误差的影响。

    • 平均绝对误差(MAE):对异常值更鲁棒。

5. 评估指标

  • 分类

    • 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(平衡精确率与召回率)、AUC-ROC曲线(衡量排序能力)。

  • 回归

    • 均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、R²分数(解释方差的比例)。

6. 输出处理

  • 分类

    • 通常输出概率分布(如逻辑回归的Sigmoid函数、多分类的Softmax函数),取最大概率类别为预测结果。

  • 回归

    • 直接输出连续值,无需概率转换。

7. 边界情况与转换

  • 概率预测:逻辑回归输出概率(连续值),但最终通过阈值(如0.5)离散化为类别。

  • 有序分类:如年龄段划分,可视为分类或回归(保留顺序信息时可能用回归模型)。

  • 离散化处理:将回归问题转为分类(如将温度分为“高/中/低”),但可能导致信息损失。

总结

维度

分类

回归

输出类型

离散类别(如“是/否”)

连续数值(如50.3)

模型示例

逻辑回归、SVM、决策树

线性回归、决策树回归、LASSO

损失函数

交叉熵损失

均方误差(MSE)

评估指标

准确率、F1分数

RMSE、R²分数

输出处理

概率→类别

直接输出数值

理解两者差异有助于根据任务目标选择合适的模型和方法。实际应用中,可能需灵活转换(如将回归结果分箱为类别),但需权衡信息损失与任务需求。


Comment