回归模型评价
回归模型的评价指标:MSE、RMSE、RMSLE、R2。
MSE (Mean Square Error)均方误差
MSE是真实值和预测值的差值平方后求平均值,常被用作线性回归的损失函数。
$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
RMSE (Root Mean Square Error) 均方根误差
RMSE是MSE值的开方,衡量观察值和真实值之间的偏差,常用作机器学习模型预测结果的衡量标准。
$$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
$$
RMSE值的阈值:
- RMSE值越小,预测模型准确度越高
- RMSE值低于数据标准差10%,则可被认为是一种较好的预测模型
- RMSE在数据集是正态分布的情况下,则是一个合适的评价标准;RMSE在数据集中离群点较多或者存在其他异常情况下,则不太合适
MAE (Mean Absolute Error) 平均绝对误差
MAE是绝对误差的平均值,反映预测值误差的实际情况。
$$
MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
$$
RMSLE (Root Mean Squared Logarithmic Error) 均方根对数误差
RMSLE关注相对误差:
- 对数误差能降低数值较大的目标变量的影响,使得评估过程更关注相对误差
- 平方根误差可以放大小误差,更有助于模型拟合数据
- 对数均方根误差不适用于目标变量存在负值的情况
$$
RMSLE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( \log(\hat{y}_i + 1) - \log(y_i + 1) \right)^2}
$$
R2 可决系数
R2是拟合优度,反映的是自变量X对因变量y的变动的解释程度,越接近于1,说明模型拟合越好。
$$
R^2 = 1 - \frac{SS_{res}}{SS_{tot}}
$$
SSres是残差平方和,衡量了观测值与模型预测值之间的偏差
$$
SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
SStot是总平方和,衡量了因变量的总方差。
$$
SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2
$$