机器学习入门(1)_基本概念-白红宇

机器学习入门(1)_基本概念

阅读量：4612 次

发布时间：2019-06-09

本文共 1241 字，大约阅读时间需要 4 分钟。

机器学习基础知识（1）

很多人刚接触机器学习或神经网络的时候，被一些名词给弄糊涂了，什么人工智能，机器学习，统计机器学习，神经网络，深度学习等。所以学习机器学习的第一步，是要理清楚这几者的关系。为此，我利用了一个图来显示出几者的关系。

其中，机器学习是人工智能领域的一个分支，也是最能够体现出智能的一个分支。神经网络是机器学习其中一个较为重要的算法，还有其他的算法，例如SVM，决策树，KNN等等。深度学习简单的来说就是多层神经网络。初学者头脑里大概有这么个概念图就行了，以后学习中会慢慢体会到的。

一个很有名的权威定义，Tom Mitchell给出来的: 对于某类任务T和性能度量P，如果计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序从经验E学习。好吧，我相信你也不会从这个定义上真正了解机器学习的（这就是专家和普通人的区别）。

下面我从一个简单的例子来帮助大家理解什么是机器学习，同时也介绍一下常用的一些基本术语（斜体的名词）。

这里，我拿《机器学习实战》这本书上的一个例子：

上面表格是一个数据集，每条记录是关于一个事件或者对象的描述，称为一个样本，第一行的“不浮出水面是否生存”和“是否有脚蹼”称为特征，最后一列是关于每条记录的类别。

上述表格的机器学习过程可以简单的描述为：从上面的海洋生物数据，既训练数据，通过某个学习算法（SVM，KNN，神经网络等）来学得一个模型。在任意给定一组包含上述两个特征的但不知道是不是鱼类的数据（比如“不浮出水面是否生存”=否，“是否有脚蹼” = 否），通过学习得来的模型来预测该生物是不是鱼类。

学得模型后，还要看其是否可以工作，就需要一组测试集用来测试该模型。

上面的学习过程其实是一个分类的过程，我们判断是否是鱼类，其实就是将要一组数据通过学习得来的模型分为鱼类和非鱼类，这也是一个二分类问题，既该类别中只有两个类别，鱼类和非鱼类。现实生活中，通常不止涉及两个类别，更多的是多个类别分类问题。

这里我们涉及的类别鱼类和非鱼类是离散值，此类学习任务为分类，还有一种预测的是连续值，此类学习任务成为回归（这里先记住，以后会讲到回归的）。

机器学习中还有一种学习任务，既给定训练集，但每个样本自身的类别不知道，没有标记信息，这是我们通过学习算法学习数据内在的规律，既将这些数据分为若干组，每组成为一个簇，这些学习得来的簇可能对应一些潜在的概念划分，但我们的任务目标有时根本不关心每个簇属于哪一类，这时该学习过程成为聚类。

综上所述，机器学习可以简单分为：

总结一下：机器学习就是在计算机上通过“学习算法”从数据（训练集）中产生模型，有了模型后，可以在面对新的数据时，帮助我们进行相应的判断与预测。

接下来，我们将接触到机器学习中第一个“学习算法”，也可以称得上最简单的一个算法，k-近邻算法。

转载于:https://www.cnblogs.com/cvcvcv/p/9319736.html

你可能感兴趣的文章