1、什么是机器学习

机器学习 ≈ 让机器帮我们找一个函数f解决某一问题。

如：

语音识别：
图像识别：
阿尔法Go：

注：

本课程重点介绍机器学习（ML，Machine Learning）中的深度学习（DL，Deep Learning）；
本课程主要介绍如何通过神经网络（NN，Neural Network）的方式实现深度学习。

2、神经网络的输入和输出

输入输出

神经网络的输入可以是：

一个向量（vector）
一个矩阵（Matrix），如：一张图片。
一个序列（Sequence），如：一段语音、一段文字等。

神经网络的输出可以是：

一个数字（标量，scalar），即是一个回归问题。
多个选项，即分类（classification）问题。
其它复杂的输出，如：一段语音，一段文字、一个图片等。

3、课程概览

（1）第1-5讲：监督学习

监督学习（Supervised Learning）需要使用大量人工标记的数据作为训练集。

如：我们需要机器帮我们区分输入的图片是“神奇宝贝”还是“数码宝贝”。

神奇宝贝or数码宝贝

那么，我们需要收集大量训练数据，并对所有的训练数据进行人工标注。

（2）第7讲：自监督学习

对样本进行标记需要耗费大量的人力和物力，实际应用中，不是所有任务我们都能够对训练数据进行标注。

此时，我们可以通过自监督学习（Self-supervised Learning）的方式训练模型。即：在下游任务（Downstream Tasks）开始之前，在预训练（Pre-train）阶段先使用无标注的训练数据让模型学习基础知识，练好基本功，得到基础模型；当基础模型练好基本功后，我们只需对基础模型进行微调（Fine-tune）便可以完成某些下游任务了。

**如：**我们希望通过一个分类器同时可以区分“神奇宝贝”和“数码宝贝”、“汽车”和“自行车”、“猫”和“狗”、“苹果”和“橘子”。此时，我们不可能对所有的训练数据都进行标注。

此时，我们可以在预训练阶段，把一张图片左右翻转（或变色）后问机器它们是否一样。让机器通过这些完全没有标记的数据，自监督学习一些图像的基础知识。

当模型学会“图片左右翻转（或变色）后仍然是同一张图片”这些基础知识后，我们便可以通过微调该模型完成下游区分“神奇宝贝”和“数码宝贝”、“苹果”和“橘子”的任务了。

注：

预训练模型（Pre-trained Model）与下游任务（Downstream Tasks）的关系类似于"操作系统"与"上层应用"的关系。
预训练模型（Pre-trained Model），又称基础模型（Foundation Model）。
BERT（Bidirectional Encoder Representation from Transformers）是一种目前广泛用于语言表征的预训练模型。

（3）第6讲：生成对抗网络

若我们想要使用监督学习模型，则需要输入成对的 $x_i$ 、 $y_i$ 作为训练数据。

但是，当我们掌握了生成对抗网络（Generative Adversarial Network，GAN）技术后，我们只需将可能的输入 $x_i$ 和可能的输出 $y_j$ 作为训练数据（并不需要输入成对的 $x_i$ 、 $y_i$ 作为训练数据），GAN模型便可以对把所有输入和输出的关系找出来，进而得到需要的机器学习模型。