莘羽专业数码电器网
首页 > 行业动态 > 降噪自动编码器Denoising Autoencoder)

降噪自动编码器Denoising Autoencoder)

导语:在神经网络模型训练阶段开始前,通过Autoencoder对模型进行预训练可确定编码器W的初始参数值。然而,受模型复杂度、训练集数据量以及数据噪音等问题的影响,通过Autoencoder得到的初始模型往往存在过拟合的风险。关于Autoencoder的介绍请参考:自动编码器

1.DenoisingAutoencoder

在神经网络模型训练阶段开始前,通过Autoencoder对模型进行预训练可确定编码器W的初始参数值。然而,受模型复杂度、训练集数据量以及数据噪音等问题的影响,通过Autoencoder得到的初始模型往往存在过拟合的风险。关于Autoencoder的介绍请参考:自动编码器(Autoencoder)。

在介绍DenoisingAutoencoder(降噪自动编码器)之前,我们先来回顾一下机器学习中的过拟合的问题,如下图所示,其展示了训练数据量和噪音数量对模型过拟合问题的影响。图中红色区域表示模型过拟合,蓝色区域表示欠拟合,绿色区域是我们希望得到的模型。从图中可以看出,当训练数据越少,数据噪音越多时,模型越容易过拟合。

在模型的复杂度和数据量都已经确定的前提下,防止过拟合的一种办法是减少数据中的噪音数量,即对训练集数据做清洗操作。然而,如果我们无法检测并删除掉数据中的噪音。另一种防止过拟合的办法就是给数据中增加噪音,这看似与之前的结论矛盾,但却是增强模型鲁棒性的一种有效方式,我们以手写数字识别为例,Autoencoder所做的操作是首先对输入图片编码,经过隐含层后解码重构原始图片中的数字信息。假如现在我们输入的是一副含有一定噪音的图片,例如图片中有污点,图片中的数字倾斜等,并且我们仍然希望解码后的图片是一副干净正确的图片,这就需要编码器不仅有编码功能,还得有去噪音的作用,通过这种方式训练出的模型具有更强的鲁棒性。

DenoisingAutoencoder(降噪自动编码器)就是在Autoencoder的基础之上,为了防止过拟合问题而对输入的数据(网络的输入层)加入噪音,使学习得到的编码器W具有较强的鲁棒性,从而增强模型的泛化能力。DenoisingAutoencoder是Bengio在08年提出的,具体内容可参考其论文:

Extracting and composing robust features with denoising autoencoders.

论文中关于DenoisingAutoencoder的示意图如下,其中x是原始的输入数据,DenoisingAutoencoder以一定概率把输入层节点的值置为0,从而得到含有噪音的模型输入xˆ。这和dropout很类似,不同的是dropout是隐含层中的神经元置为0。

Bengio对DenoisingAutoencoder作出了以下直观的解释:

DenoisingAutoencoder与人的感知机理类似,比如人眼看物体时,如果物体某一小部分被遮住了,人依然能够将其识别出来。

人在接收到多模态信息时(比如声音,图像等),少了其中某些模态的信息有时也不会造成太大影响。

Autoencoder的本质是学习一个相等函数,即网络的输入和重构后的输出相等,这种相等函数的表示有个缺点就是当测试样本和训练样本不符合同一分布,即相差较大时,效果不好,而DenoisingAutoencoder在这方面的处理有所进步。

实验代码

MNIST数据集的格式与数据预处理代码input_data.py的讲解请参考:Tutorial(2)

实验代码如下:

标签:

上一篇 目录 下一章

猜你喜欢

数码电器行业动态 排水管材之谜探...
排水管材之谜:探索那些隐藏在墙角的流线秘密 在现代建筑中,排水系统是保持居住环境卫生和舒适的关键。然而,人们往往忽视了其中最基础的一环——排水管材。今天,...
数码电器行业动态 想开一家不锈钢...
我要搞一家超厉害的不锈钢加工厂了! 记得小时候,看到电视上那些高科技产品时,就总是对它们底下的不锈钢工艺充满好奇。现在,我决定自己动手,一步一步地把这个梦...
数码电器行业动态 废品回收网站-...
绿色循环:探索高效的电子垃圾回收解决方案 在当今这个信息爆炸的时代,电子产品的更新换代速度越来越快,这不仅给我们的生活带来了便利,也给地球带来了新的挑战。...
数码电器行业动态 工地喷雾降尘装...
工地喷雾降尘装置简介 工地喷雾降尘装置是一种专为建筑施工场所设计的环境保护设备,它通过高效的喷射技术将粉尘和颗粒物直接带离现场,有效减少了施工过程中对周围...

强力推荐