您好、欢迎来到现金彩票网!
当前位置:红彩会 > 分类器 >

面对未知分类的图像如何改进分类器、如何克服这个问题呢?

发布时间:2019-06-04 02:51 来源:未知 编辑:admin

  当训练好的图像分类器遇到了训练数据里不存在的类别的图像时,显然它会给出离谱的预测。那么我们应该如何改进分类器、如何克服这个问题呢?

  老实说,这真的是领域内的一个老大难问题,没人能给出完美的答案。Jetpac(现被谷歌收购) CTO、苹果毕业生、tensorFlow 团队成员 Pete Warden 在个人博客中写下了他的一些个人思考。

  几天前,正与我合作的 Plant Village 团队向我提出了一个他们正在开发的应用程序(app)中遇到的问题。他们用 app 检测植物所患的疾病。当它面对植物的叶子时,app 能够给出很好的分类结果,然而如果你让 app 处理电脑键盘的图片,它会认为这是一种受损了的植物。如下图。

  对于计算机视觉研究者们来说,这样的结果并不令人意外。但对于大多数其他人来说,这还是令人十分震惊的。所以我想解释为什么会发生这种情况,以及我们可以对此做些什么。

  作为人类,我们习惯于对我们看到的周围世界中的任何事物进行分类。自然而然地,我们也希望机器具有相同的能力。然而,大多数模型仅仅被训练用来识别非常有限的物体集合,例如 ImageNet 竞赛中的 1,000 种物体。至关重要的是,训练过程假设模型面对的每个样本一定都是属于这些类别的其中一种物体,而且预测结果也在这个集合的范围内。模型不能选择给出「我不知道!」这样的预测结果,也没有训练数据会帮助分类器学到这样的预测结果。对于科学研究来说,这样的简化处理是很有意义的,但是当我们在现实世界中使用这些最终得到的模型时还是会引起一些问题。

  回想起我在 Jetpac 工作的日子,我们很难说服人们相信这个具有开创性的 AlexNet 模型是一个巨大的突破。因为每当我们把运行着 AlexNet 的用于演示的手机给测试者使用时,他们总会将自己的脸让手机识别,而手机的预测结果往往是「氧气面罩」或「安全带」之类的东西。这是因为 ImageNet 竞赛数据集中的物体不包括任何人的标签,但是大多数带有面具或安全带标签的图片都同时包含了人的面孔和标签对应的物体。另一个令人尴尬的错误是,当人们把手机对准一个盘子时,它给出的预测结果竟然是「马桶座」!这是因为在初始的类别中没有盘子,而外形特征最接近的白色圆形物体是一个马桶。

  渐渐地,我认为这是一个「开放世界」与「封闭世界」的问题。我们假设模型所要面对的物体在有限的范围内,从而训练和评估模型。然而,一旦模型走出实验室,被用于现实世界的种种应用,这样的假设就不成立了。用户会根据这些模型面对任意放在它们面前的物体的预测结果来评判它们的性能,无论这些物体是否在训练集中。

  不幸的是,我不知道有什么简单的方法可以解决这个问题,但是我已经看到了目前有一些策略是对此有所帮助的。显然,我们可以从向训练数据添加一个「未知」类开始处理该问题。而坏消息是,这样做会引发一连串其它的问题:

  「未知」类应该包含怎样的样本?可能属于该类的自然图像无穷无尽,所以你应该如何选择哪些图片应该被纳入该类?

  对于那些看起来和你重点关注的类非常相似的未知对象,你应该做些什么?例如,添加一个不在 ImageNet 的 1,000 类物体中,而看起来几乎完全相同的品种的狗,可能会使许多本应该正确匹配的物体被迫分类到未知类中。

  最后一点实际上涉及到了一个更广阔的问题。你从图像分类网络中的到的预测值并不是概率。它们假设你看到任何特定类的概率等于该类在训练数据中出现的频率。如果你用一个分类里包含企鹅的动物分类器检测亚马逊丛林中的动物,你就会遇到这个问题,因为(几乎)所有看到企鹅的事件都会是假正例误报(false positive,显然这里是不会出现企鹅的,所以当模型认为自己看到了企鹅的时候一定是错误的)。即使是对于美国城市中的狗的种类,罕见的品种在 ImageNet 训练数据中出现的次数也要比在一个宠物狗公园中多,所以他们会被过度描述为假正类。通常的解决方案是弄清在计算过程中你将面临的先验概率,然后利用它们将校准值应用到网络的输出中,从而获得更接近真实概率的结果。

  在实际的应用程序中,从整体上帮助解决该问题的主要策略是:将模型的适用范围限制在「应用程序将面对的物体与模型的训练数据匹配」的情况。要做到这一点,一个简单的方法就是对产品进行设计。你可以创建一个用户界面,指引人们在运行分类器之前确保摄像头画面中已经出现了要分类的目标,这和那些要求你对支票或其他文档进行拍照的应用程序经常做的是一样的。

  稍微复杂一点的方案是,你可以编写一个独立的图像分类器,它试图去识别那些那些主图像分类器不能识别的情况。这和添加一个单一的「未知」类是不同的,因为它的作用更像一种级联操作,或者用做一个详细的模型前的过滤器。在识别农作物患病情况的例子中,视觉上的操作环境足够独特,所以只需要训练一个训练一个模型来区分叶子和随机选择的其他图片。这些照片之间有足够的相似性,而门模型至少应该能够识别出图片是否是在不支持的场景中拍摄的。该门模型将在运行完整的图像分类器之前运行,如果它没有检测到一些看起来像是植物的东西,它就会提前跳出程序并且返回表明没有发现任何植物的错误信息。

  要求你对信用卡拍照或执行其它光学字符识别(OCR)过程的应用程序通常会混合使用屏幕上的方向和检测模糊性或不协调性,从而指导用户拍摄可以成功处理的照片。而一个用于回答「那是树叶吗?」这样的问题的独立图像分类模型则是这种接口模式的简单版本。

  本文给出的可能并不是一个令人满意的答案,但是一旦你把机器学习技术引入到带有限制的研究问题之后,它们就会反应出用户期望目标的混乱。在一个人对一个物体的认知过程中,存在很多常识和外部知识,而我们在经典的图像分类任务中并没有获取这些知识。为了获得满足用户期望的结果,我们必须围绕我们的模型设计一个完整的系统,这个系统能够理解它们将被部署到的环境,并切不仅仅基于模型的输出作出明智的决策。

  文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

  随着计算机视觉技术在生活中的广泛落地,不断带来生活体验刷新让智慧生活更近一步。

  近年来,生物识别、机器学习和自动驾驶日益成为社会各界关注的焦点,人工智能与社会、人类生活融合的程度也....

  近日,Science子刊发表文章,来自Facebook、加州伯克利分校和德克萨斯奥斯汀大学的研究人员....

  事实上,在「自动驾驶汽车究竟应该用不用激光雷达」这个问题上长时间的争论不休,衍生出了「激光雷达派」与....

  澄清说明:分类器与学习器的含义是什么?假设你有训练数据,并使用你构建另一个程序(模型)的程序处理这些....

  对于图像分类问题,Dense层可能是不够的。但我们也可以另辟蹊径!有完整的卷积神经网络可供下载。我们....

  似乎我们陷入了困境。幸运的是,我们想要在现实世界中学习的特性并不是从所有数学上可能的函数集中统一绘制....

  我们提出在基础的迭代式攻击方法上加入动量项,避免在迭代过程中可能出现的更新震荡和落入较差的局部极值,....

  比如一个草原的照片上有一块污渍,我们知道被盖住的部分(缺失的数据)也是草,那么我们就可以训练神经网络....

  然而,图像分类问题就是一个非常复杂的工作,它总是借用诸如卷积神经网络(CNN)这样的深度学习模型来完....

  Diffgram – 一个非常有前途的平台仍然在beta版,通过训练RCNN优化图像注释;RectL....

  尽管如此,Hinton 认为目前的 AI 和机器学习方法仍然存在局限性。他指出,大多数计算机视觉模型....

  神经科学家和计算机视觉科学家表示,一个空前庞大的新数据集将帮助研究人员更好地理解大脑是如何处理图像的....

  俞益洲说,在计算机视觉里面用到的深度学习,主要就是卷积神经网络(CNN)。CNN是Yann LeCu....

  针对稀疏编码模型在字典基的选择时忽略了群效应,且欧氏距离不能有效度量特征与字典基之间距离的问题,提出....

  发布会现场,依图科技首席创意官吕昊为大家进行了芯片演示——他手持一台体积与15 英寸苹果 MacBo....

  截至2018 年,全球活跃的安卓设备已经超过了20 亿部。安卓手机的迅速普及在很大程度上得益于各种各....

  深度学习下的分类,目标检测、语义分割这三个方向具体的概念及其应用场景是什么?

  我们观察一下这些图片的特点,这些图片各种各样,分辨率也各不相同。图片中的猫和狗形状、所处位置、体表颜....

  我主要研究医疗和金融领域的模型应用,在这些领域的实际问题中,上述模型能够在很大程度上解决模型解释性、....

  除此模型之外,本研究还尝试了几种其他的模型结构,一是移除教师 - 学生模型并使用自训练模型,二是在进....

  作者基于本模型和两种训练技巧分别在IEMOCAP数据集和SpeechOcean中文大数据集上做了测试....

  这本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy,Pandas、Matp....

  一种新的、更精细的对象表示方法 ——RepPoints ,比边界框更好用的目标检测方法

  虽然边界框便于计算,但它们仅提供目标的粗略定位,并不完全拟合对象的形状和姿态。因此,从边界框的规则单....

  此外,由于mask原型的预测不依赖于类别的数量,这一模型学习到如何组合mask原型的表示可以被所用类....

  其中有很多都会被退回,或者在多次更新或造成安全恐慌之后被丢弃。也许幸运点的设备会在精通技术的朋友那里....

  根据近日 WIDER FACE 公布的最新评测结果,滴滴 AI Labs 团队联合北京邮电大学 PR....

  激光雷达流派和纯计算机视觉流派一直在自动驾驶技术中的感知层解决方案上喋喋不休。

  服务平台则主要由可定制化训练深度学习模型的EasyDL以及一站式开发平台AI Studio组成。Ea....

  该项目作者表示:“好记性不如烂笔头,更何况针对自己不熟悉的领域,没有工程实践,可能也不了解论文的痛点....

  200帧高速采集,INDEMIND双目视觉惯性模组助力立体视觉应用升级

  近年来,机器人、深度学习、姿态检测、自动驾驶等前沿领域的高速发展为计算机视觉领域拓展了巨大增量,创造了新的千亿

  OpenCV(Open Source Computer Vision Library) 由公司在背后....

  通常情况下,如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的....

  目标检测是一种多任务学习问题,包含目标定位和目标分类。当前最佳的目标检测器(比如 Faster RC....

  在前文的架构图中我们已经看到它由生成器和判别器两个网络和两套坐标系统组成,其中包括了细粒度的局域图像....

  在之前的系列中,我们学习了密集连接的神经网络(densely connected neural ne....

  本文介绍了包括图像分类、交易预测、情感分类、推荐系统、股票预测等在内的若干个机器学习应用及数据集。

  如今,深度学习在众多领域都有一席之地,尤其是在计算机视觉领域。尽管许多人都为之深深着迷,然而,深网就....

  但是,如果只是简单地将层堆叠在一起,增加网络的深度并不会起太大作用。这是由于难搞的梯度消失(vani....

  看起来他正在用一些随机看的过滤器对每个图像进行卷积,然后使用一些非常奇怪的逻辑,许多“if then....

  OpenCV是计算机视觉领域使用最为广泛的开源库,以功能全面使用方便著称。在LiveVideoSta....

  针对复杂环境下行人检测不能同时满足高召回率与高效率检测的问题,提出一种基于卷积神经网络(CNN)的行....

  该算法已被计算机视觉顶级会议CVPR 2019接收,原文《DSFD: Dual Shot Face ....

  有了CV-ISP,计算机视觉任务能够在更快的速度和更低的功率下完成,同时功耗降低高达4倍。CV-IS....

  实验室的最新工作——Res2Net,一种在目标检测任务中新的Backbone网络模块

  因此,多尺度的特征在传统方法和深度学习里面都得到了广泛应用。通常我们需要采用一个大感受野的特征提取器....

  其他观点:除了人类的运动,该模型还可以用于预测场景的运动情况,如海洋中波浪的起落等。此外,该模型也可....

  由于单独的Res2Net模块对于整体网络结构没有特定的要求,Res2Net模块的多尺度表示能力也和C....

  2019年全球AI人才流动报告:球约有44%的AI人才在美国获得的博士学位

  调查显示,美国雇主继续吸引研究人员前来工作,其中46%的人为美国雇主工作;超过11%的人在中国工作,....

  实验使用的设备Nexus 5和Nexus 9,尺寸分别为137.84mm×69.17mm×8.59m....

  深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,...

  摘要:提出了一种改进的矩不变自动阈值算法。该算法针对矩不变自动阈值法忽略图像细节的缺点,在矩不变自动阈值的基础上增加了基...

  从“跳一跳”之后,又有一款小程序游戏因其独特好玩的个性,在朋友圈C位出道了。 几天前,谷歌发布了一款名为“猜画小歌”...

  职位描述: 1. 负责计算机视觉&机器学习(包括深度学习)算法的开发与性能提升,负责下述研究课题中的一项或多项,包括但不限于...

http://m3-ctech.com/fenleiqi/421.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有