文章目录
- 绪论
- 二:基本术语
- 数据
- 算法
- 得到模型
- 有监督学习
- 无监督学习
- 进行预测
- 三:假设空间
- 四:归纳偏好
- 二:模型评估与选择
- 一种训练集一种算法
机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。
基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测
绪论
二:基本术语
数据
----西瓜举例
数据集 —100个西瓜
样本----1个西瓜
特征向量—1.样本空间
2.颜色、大小、敲起来的振幅
3、维度
属性—甜度
算法
得到模型
有监督学习
分类:二分类 : 仅两种选择,是-否,对-错
:多分类 :Y大于2,有多种选择
回归:Y=R实数集,在一段连续的区间内,判断哪个合适
无监督学习
聚类:我们不知道分成几类,机器自己分
:每组称为“簇”cluster
进行预测
测试
测试样本
泛化能力
三:假设空间
科学推理手段:1归纳:特殊到一搬:x+狭义-从训练数据中得到概念:a :bool概念:是或不是
:b:假设多种情况
:y+广义–从样本中学习
2:演绎:一般到特殊
四:归纳偏好
同一个数据集训练出来了不同的类型,如何选择模型
二:模型评估与选择
一种训练集一种算法
经验误差与过拟合
1、
评估方法
1、泛化能力:模型对没有见过的数据的预测能力
性能度量
“奥克姆剃刀”准则
如无必要,勿增实体
若多个假设与经验观测一致,则选择最简单的那个
其它原则
“多释原则”: