博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习中ground truth的解释
阅读量:4053 次
发布时间:2019-05-25

本文共 1040 字,大约阅读时间需要 3 分钟。

作者:lee philip

链接:
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

机器学习包括有监督学习(supervised learning),无监督学习(unsupervised learning),和半监督学习(semi-supervised learning).

在有监督学习中,数据是有标注的,以(x, t)的形式出现,其中x是输入数据,t是标注.正确的t标注是ground truth, 错误的标记则不是。(也有人将所有标注数据都叫做ground truth)

由模型函数的数据则是由(x, y)的形式出现的。其中x为之前的输入数据,y为模型预测的值。

标注会和模型预测的结果作比较。在损失函数(loss function / error function)中会将y 和 t 作比较,从而计算损耗(loss / error)。 比如在最小方差中:

\frac{1}{2m} \sum_{i=1}^{m} (y - t)^2

因此如果标注数据不是ground truth,那么loss的计算将会产生误差,从而影响到模型质量。

比如输入三维,判断是否性感:

  1. 错误的数据

标注数据1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

标注数据2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。

这里标注数据1是ground truth, 而标注数据2不是。

预测数据1 y = -1

预测数据2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1-1)^2) = 2

  1. 正确的数据

标注数据1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。

标注数据2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改为ground truth)

这里标注数据1和2都是ground truth。

预测数据1 y = -1

预测数据2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1+1)^2) = 1

由于使用错误的数据,对模型的估计比实际要糟糕。另外,标记数据还被用来更新权重,错误标记的数据会导致权重更新错误。因此使用高质量的数据是很有必要的。

  • 在半监督学习中,对标记数据也要进行比较
你可能感兴趣的文章
利用HTTP Cache来优化网站
查看>>
利用负载均衡优化和加速HTTP应用
查看>>
消息队列设计精要
查看>>
分布式缓存负载均衡负载均衡的缓存处理:虚拟节点对一致性hash的改进
查看>>
分布式存储系统设计(1)—— 系统架构
查看>>
MySQL数据库的高可用方案总结
查看>>
常用排序算法总结(一) 比较算法总结
查看>>
SSH原理与运用
查看>>
SIGN UP BEC2
查看>>
S3C2440中对LED驱动电路的理解
查看>>
《天亮了》韩红
查看>>
Windows CE下USB摄像头驱动开发(以OV511为例,附带全部源代码以及讲解) [转]
查看>>
出现( linker command failed with exit code 1)错误总结
查看>>
iOS开发中一些常见的并行处理
查看>>
iOS获取手机的Mac地址
查看>>
ios7.1发布企业证书测试包的问题
查看>>
如何自定义iOS中的控件
查看>>
iOS 开发百问
查看>>
Mac环境下svn的使用
查看>>
github简单使用教程
查看>>