基础专题

基础定义

什么是机器学习
- 李宏毅：很多应用场景都是根据给定输入进行处理后进行输出，其过程可以抽象成一个函数，机器学习就是通过给定大量数据，学习到这样的一个函数。
机器学习的种类
- 回归（regression）：函数的输出是一个标量（scaler）。比如，预测明天温度。
- 分类（classification）：函数输出的是类别（class）。比如，判断邮件是否为垃圾邮件，AlphaGo下围棋（判断 19x19 的个位置要取哪一个）。
- 结构化学习（structured learning）：（参考：大佬笔记）函数输出是一个结构化的数据，比如图片，语句等等。比如，语音识别、机器翻译、句法解析、目标检测
如何找到这个函数

我们的主要目标是根据特定的数据学到一个模型。假设任务是预测天气。
首先定义一个模型，比如最简单的线性模型，明天天气是今天天气的 k 倍+ b。
通过模型得到的结果和真实结果的误差可以进一步计算的到 MAE 或 MSE。
1. $MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|$
2. $MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$
误差表面(error surface)：根据不同的超参数，绘制误差。
优化：通过梯度下降等方法找到误差最小的地方。

前提： $m$ 个样本中 $\alpha$ 个样本分类错误

错误率： $E=\alpha / m$
精度： $1-E = (1-\alpha/m)\times 100\%$
误差（error）：实际输出与真实输出的差异
- 训练集上的误差：训练误差（training error）或经验误差（empirical error）
- 新样本上的误差：泛化误差（generalization error）
过拟合（over fitting）：训练样本自身特点当成泛化规律，模型变得教条
欠拟合（under fitting）：未能掌握足够的泛化规律

可以从离散的数数，和概率角度，两个方向去统计错误率和精读（正确率）

[机器学习笔记] 混淆矩阵（Confusion Matrix）

预测正例

预测反例

真实正例

TP（真正例）

FN（假反例）

真实反例

FP（假正例）

TN（真反例）

Accuracy = \frac{TP+TN}{TP+FN+FP+TN}

Precision = \frac{TP}{TP+FP}

查准率和查全率是一对矛盾的指标。一般来说，查准率高时，查全率往往偏低；二查全率高时，查准率往往偏低。

Recall = Sensitivity(True Positive Rate，TPR) = \frac{TP}{TP+FN}

False Positive Rate, FPR = \frac{FP}{TN+FP}

Specificity = 1-FPR

F\beta = \beta \cdot Recall + Precision

F1 = Recall + Precision

最后更新于1年前

这有帮助吗？