博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Coursera台大机器学习课程笔记14 -- Validation
阅读量:5054 次
发布时间:2019-06-12

本文共 700 字,大约阅读时间需要 2 分钟。

      这节课是接着上节的正则化课程的,目的也是为了防止overfitting。

      第一小节讲了模型的选择,前面讲了很多模型,那么如何做出正确的选择呢?我们的目标是选择最小的Eout目标函数。首先应避免视觉化选择,因为高维。

假如选Ein最小的化,则会出现过拟合。虽然能用test数据选择最好的,但通常test数据是不可得的。然后提出了一个办法,在训练数据中留出一部分,作为test,称为validation data

      第二节中,要想让Eval与Eout产生连接,就在数据集中随即抽样K个样本。这样在N-K个样本中训练,在K个未污染的样本中进行测试,得到表现最好的那个。但结合前面的知识我们

知道,数据量越大,Eout就会表现得越好。因此,提出了一个改进的方式:由上述方法得到最好的hypesis和E后,再把整体数据输入,得到g。

      在K的选取中,我们既想K大又想K小,这节课选取K=1,每次训练留下一个样本,看看会发生什么。由N-1个样本数据得到各种g后,求与剩下那个样本的Eloocv,然后求最合适的g,并在

接下来的过种中证明了Eloocv确实可以与Eout相当,比Ein在选择上更有用。

      leave one out也有缺点,那就是效率不高。接下来的任务就是怎么降低cross validation的计算量。cv之所以计算量大,是因为数据集分的太细。因此,把数据集的份数减小就是一个办法。

      validation与train相比,相当于多做了一次测试,但真正能够衡量结果好坏的,还是test的结果。

    

      

      

转载于:https://www.cnblogs.com/573177885qq/p/4609911.html

你可能感兴趣的文章
WC2019 T1 数树
查看>>
Windows下pipenv将虚环境文件的位置设置在项目根目录下
查看>>
docker run -it centos /bin/bash 后面的 bin/bash的作用
查看>>
理解 JavaScript 中的 for…of 循环
查看>>
[译]GPUView
查看>>
python优雅编程之旅
查看>>
LintCode: Binary Tree Preorder Traversal
查看>>
CheeseZH: Stanford University: Machine Learning Ex1:Linear Regression
查看>>
Python入门基础教程(儿童版) [分享一本入门级教程]
查看>>
WCF 项目应用连载[2] - 创建Lig日志系统
查看>>
再见了,DM
查看>>
安装Apache Felix OSGI Framework小记
查看>>
IT人必须学会的职场四原则
查看>>
23种基本的设计模式
查看>>
23种设计模式的意图和适用范围
查看>>
String和StringBuilder
查看>>
记一次jdk升级引起的 Unsupported major.minor version 51.0
查看>>
关于IK 分词器
查看>>
修改SSAS实例名
查看>>
浅谈C++底层机制
查看>>