基于目标检测的多目标跟踪

与多目标跟踪(Multiple Object Tracking简称MOT)对应的是单目标跟踪(Single Object Tracking简称SOT),按照字面意思来理解,前者是对连续视频画面中多个目标进行跟踪,后者是对连续视频画面中单个目标进行跟踪。由于大部分应用场景都涉及到多个目标的跟踪,因此多目标跟踪也是目前大家主要研究内容,本文也主要介绍多目标跟踪。跟踪的本质是关联视频前后帧中的同一物体(目标),并赋予唯一TrackID。

随着深度学习的兴起,目标检测的准确性越来越高,常见的yolo系列从V1到现在的V8,mAP一个比一个高,因此基于深度学习的目标检测算法实际工程落地也越来越广泛,基于目标检测的跟踪我们称为Tracking By Detecting,目标检测算法的输出就是这种跟踪算法的输入,比如left, top,width,right坐标值。这种Tracking By Detecting的跟踪算法是大家讲得比较多、工业界用得也比较广的跟踪算法,我觉得主要还是归功于目标检测的成熟度越来越高。下面这张图描述了Tracking By Detecting的跟踪算法流程:

由上图可以看出,这种跟踪算法要求有一种检测算法配合起来使用,可想而知,前面检测算法的稳定性会严重影响后面跟踪算法的效果。图中实线圆形代表上一帧检测到的目标,虚线圆形代表当前帧检测到的目标,如何将前后帧目标正确关联起来就是这类跟踪算法需要解决的问题。目标跟踪是目标检测的后续补充,它是某些视频结构化应用中的必备环节,比如一些行为分析的应用系统中都需要先对检测出来的目标进行跟踪,然后再对跟踪到的轨迹进行分析。

目标关联

文章开头提到过,目标跟踪的本质是关联视频前后帧中的同一物体(目标),第T帧中有M个检测目标,第T+1帧中有N个检测目标,将前一帧中M个目标和后一帧中N个目标一一关联起来,并赋予唯一标识TrackID,这个过程就是Tracking By Detecting跟踪算法的宏观流程。

上图描述目标关联的具体流程,在实际目标关联过程中,我们需要考虑的有:

  1. 如何处理中途出现的新目标
  2. 如何处理中途消失的目标
  3. 正确目标关联

理想情况下,同一个物体(目标)在视频画面中从出现到消失,跟踪算法应该能赋予它唯一一个标识(TrackID),不管目标是否被遮挡、目标是否发生严重形变、是否和其他目标相距太近(相互干扰),只要这个目标被正确检测出来,跟踪算法都应该能够正确关联上。但实际上,物体遮挡是跟踪算法最难解决的难题之一,物体被频繁遮挡是TrackID变化的主要原因。原因很简单,物体被遮挡后(或其他原因),检测算法检测不到,跟踪算法无法连续关联到每帧的数据,等该物体再出现时,物体在画面中的位置、物体的外观形状与消失之前相比都发生了很大变化,而跟踪算法恰恰主要是根据物体的位置、外观来进行数据关联的。下面主要介绍目标跟踪中两种方式,一种容易实现、速度快,算法纯粹基于目标在画面中的位置来进行数据关联;另一种相对复杂,速度慢,算法需要提取前后帧中每个目标的图像特征(features),然后根据特征匹配去做数据关联。

基于坐标的目标关联

基于坐标(目标中心点+长宽)的目标关联是相对简单的一种目标跟踪方式,算法认为前后帧中挨得近的物体为同一个目标,因为物体移动是平滑缓慢的,具体可以通过IOU(交并比,前后两帧中目标检测方框的重叠程度)来计算,这种算法速度快、实现容易,在前面检测算法相对稳定的前提下,这种跟踪方式能够取得还不错的效果,由于速度快,这种方式一般可以用于对实时性(realtime)要求比较高的场合。缺点也很明显,因为它仅仅是以目标的坐标(检测算法的输出)为依据进行跟踪的,所以受检测算法影响非常大,如果检测算法不稳定,对于一个视频帧序列中的目标,检测算法经常漏检,那么通过这种方式去跟踪效果就非常差。另外如果场景比较复杂,目标比较密集,这种跟踪方式的效果也比不会太好,因为目标密集,相邻目标的坐标(left、top、width、height)重合度比较高,这给基于坐标的目标关联带来困难。

如上图,在T+1帧中,我们根据目标前面若干帧的坐标预测它在本帧中的坐标(预测坐标),然后再将该预测坐标与本帧实际检测的目标坐标进行数据关联。之所以需要先进行预测再关联,是因为为了减少关联过程的误差,常见预测算法可以使用卡尔曼滤波,根据目标前面若干坐标值预测下一坐标值,并且不断地进行自我修正,卡尔曼滤波算法网上有开源代码。IOU(交并比)是衡量两个矩形方框的重叠程度,IOU值越大代表矩形框重叠面积越大,它是目标检测中常见的概念。在这里,我们认为IOU越大,两个目标为同一物体的可能性越大。

基于特征的目标关联

纯粹基于坐标的目标跟踪算法有一定的局限性,单靠目标坐标去关联前后帧的同一目标在有些场合下效果比较差。在此基础上,有人提出结合目标外观特征匹配做目标关联,换句话说,在做目标关联的时候,除了依赖目标坐标外,还考虑目标的外观特征,道理很简单:

“前后两帧中挨得近的物体外观长得比较像的物体为同一目标。”

这样的跟踪方式准确率更高,但是同时出现了一个问题:如何判断两个物体外观长得像?在计算机视觉中,有一个专门的研究领域叫Target Re-Identification(目标重识别),先通过对两个待比较目标进行特征编码(特征提取),然后再根据两个特征的相似度,来判断这两个目标是否为同一个物体,两个特征越相似代表两个目标为同一个物体的可能性越大。Target Re-Identification常用在图像搜索、轨迹生成(跨摄像机目标重识别)以及今天这里要说的目标跟踪。

熟悉深度学习的童鞋应该很清楚,神经网络的主要作用就是对原始输入数据进行特征编码,尤其在计算机视觉中,卷积神经网络主要用于图像的特征提取(Feature Extraction),从二维图像中提取高维特征,这些特征是对原始输入图像的一种抽象表示,因此训练神经网络的过程也可以称为Representation Learning。相同或者相似的输入图片,神经网络提取到的特征应该也是相同或者相似的。我们只要计算两个特征的相似度,就可以判断原始输入图像的相似性。

那么如何计算两个图像特征的相似度呢?图像特征的数学表示是一串数字,组合起来就是一个Vector向量,二维向量可以看成是平面坐标系中的点,三维向量可以看成立体空间中的点,依次类推,因此图像特征也被称作为“特征向量”。有很多度量标准来衡量两个特征向量的相似程度,最常见的是“欧式距离”,即计算两点之间的直线距离,二维三维空间中两点之间的直线距离我们都非常熟悉,更高维空间中两点距离计算原理跟二三维空间保持一致。另外除了“欧式距离”之外,还有一种常见距离度量标准叫“余弦距离”,计算两个向量(点到中心原点的射线)之间的夹角,夹角越小,代表两个向量越相似。

外观特征提取是一个耗时过程,因此对实时性要求比较高或者需要同时处理视频路数比较多的场合可能不太适合。但是这种基于外观特征的跟踪方式效果相对更好,对遮挡、目标密集等问题鲁棒性更好,因为目标遮挡再出现后,只要特征提取网络训练得够好,目标尺寸、角度变化对它的外观特征影响不大,因此关联准确性也更高。类似的,这个也适用于目标密集场景。外观特征提取需要定义一个合适的神经网络结构,采用相关素材去训练这个网络,网上有很多公开的Person-ReId数据集可以用来训练行人跟踪的特征提取网络,类似的,还有一些Vehicle-ReId数据集可以用来训练车辆跟踪的特征提取网络,关于这块的内容,也是一个值得深入研究的领域,由于本篇文章主要介绍目标跟踪,所以暂不展开讲述了。

本文开头第一张图是基于坐标的跟踪方式效果图,上图是基于外观特征的跟踪方式效果图,我们可以看到,第一张图中目标被遮挡再出现后,目标ID发生了变化,而第二张图中大部分时候目标ID都比较稳定,同样,人群密集场合中,同一目标ID发生改变的几率也小。实际上,同一目标ID是否发生变化是衡量跟踪算法好坏的一个重要指标,叫IDSwitch,同一目标ID变化次数越少,可以一定程度代表算法跟踪效果越好。

参考论文

1 Simple Online Real-time Tracking https://arxiv.org/pdf/1602.00763.pdf
2 Simple Online Real-time Tracking with a deep association metric https://arxiv.org/pdf/1703.07402.pdf
3 Multiple Object Tracking: A Literature Review https://arxiv.org/pdf/1409.7618.pdf

目标检测框不稳定不连续?

做过基于目标检测算法应用的人可能会碰到这样一个问题:算法在检测连续视频帧时,视频中同一个目标的检测框经常出现抖动、有时候目标还出现若干帧检测不到的情况(漏检),哪怕整个视频画面保持不变,目标就停在原地不动,照样会出现这个问题。检测算法出现这个问题会对后面整个流程产生非常大的负面影响,因为大部分应用会基于前面的检测输出结果去做一些具体的业务逻辑,比如测速、轨迹分析。如果检测输出框不稳定、不连续,无疑会对整个应用的准确性造成非常大的影响。我将这种问题分为3类:

  1. 目标检测框的宽高不稳定。比如一辆车停在原地不动,正常期望的是,不管在哪帧进行检测,车辆检测输出框的宽高应该固定不变,因为车没挪动。或者说目标从远到近,检测框的宽高应该平滑变化,而不是看上去一闪一闪的感觉
  2. 同理,目标检测框的位置不稳定。同样还是一辆车停在原地,车辆检测输出框的位置(框中心点坐标)应该固定不变。或者从远到近,检测框的中心点应该平滑移动,而不是看上去一抖一抖
  3. 目标停在原地不动,视频画面保持不变,该目标应该连续被检测到,而不会出现若干帧漏检

下面这个动图很好的说明了上面提到的问题(来源youtube见末尾链接):

在搞清楚如何解决(或者说优化)这个问题之前,我们要先搞清楚为什么会出现这个现象?目前所有基于CNN的目标检测算法,输入全部都是像素值,无论做过什么预处理,原始图像的像素组成肯定会影响最终的检测结果。而我们人眼认为的“视频画面没有变化”只是一个错觉,由于图像采集设备各种噪音的影响(可能还有光线亮度变化、解码噪音等等),看似没有变化的视频画面前后两帧其实从微观像素组成上已经发生了很大变化,这些变化对检测算法来讲无疑是巨大的。如果用同一张图片组成一个序列,那么这个序列中的目标检测框肯定非常稳定(实际上可以做到完全一模一样),原因很简单,前后帧的画面一模一样、微观像素组成也完全一样,模型的输出当然也一模一样了(不考虑解码噪音)。

好了,现在清楚了问题出现的原因,就要找办法去解决。可惜的是,目前并没有办法彻底解决这个检测框不稳定/不连续的问题,只有优化该问题的办法。下面直接列出来:

  1. 既然微观上的像素变化对检测结果影响巨大,那么我们尽量充分收集各种场景(比如各种亮度)的素材去训练模型,最终提升模型的泛化能力。但是这个方法局限性太大了,有些图像噪音你无法预估;
  2. 对训练素材质量进行优化,尤其素材的标注质量。检查素材gt标注是否规范(比如是否刚好贴近目标轮廓、是否有漏标目标)。原因很简单,gt框子如果本身都很随便,有时候大有时候小,对最终检测框的稳定性影响肯定很大。如果gt漏标严重,那么最终肯定影响模型对目标的检测判断;
  3. 无法在检测环节解决的,那么我们就在检测之后去处理。这里要提到的就是目标跟踪算法,对目标跟踪不熟悉的童鞋请看前面的旧文章。目标跟踪主要是将视频前后帧中的同一目标进行关联,并且赋予唯一ID。在跟踪的逻辑中,我们可以做一些轨迹平滑处理、轨迹缓存处理,来弥补前面检测环节的不足。下面这张图右边为检测算法的原始输出,左边为跟踪结果:

上面3条,我已经在实际工程中证实过2和3有效。下面重点说第3条,也就是目标跟踪对检测输出结果的优化。下面先看一个检测算法的原始输出效果,它只有检测框:

我们可以看到检测框抖动严重,而且画面中的行人检测断断续续,算法无法逐帧都检测到。这种情况下,我们无法稳定捕捉到行人移动这个动作,所以对应用系统后续的业务逻辑带来巨大的负面影响。现在我在检测输出的基础上增加目标跟踪的逻辑之后:

可以看到,不仅行人目标检测框连续了(ID固定不变),周边车辆运动也更加平滑,对后续车辆测速逻辑有非常大的帮助。目标检测框稳定/连续到底对后续业务逻辑有什么影响?举个例子,如果应用系统在检测到行人目标的时候发出告警的阈值是25帧,也就是系统至少要连续检测到行人目标一秒钟才认为应该报警。那么仅仅按照目标检测的原始输出结果,该行人目标检测无法触发连续25帧的阈值。

具体的目标跟踪算法可以参考SORT和DeepSort两种,这俩是非常典型有代表性的跟踪方式。前者纯粹基于目标物理位置进行跟踪(目标检测框的大小和位置),后者除了考虑目标物理位置之外,还考虑了目标外观特征(Appearance Feature),通过外观特征进一步进行匹配关联,运行速度要比前者慢很多,但是准确性高。在这两种跟踪方式中,都用到了卡尔曼滤波,一个作用就是用来做前后帧目标轨迹预测关联,另一个就是对目标检测框的平滑处理,让目标检测框变化不要那么突兀。至于若干帧漏检的问题,这些跟踪算法中都有缓存机制,当目标偶尔漏检时,之前赋予的ID并不会马上清除,而是保留一段时间(帧),后面如果能匹配到新的检测结果,那么目标重新被激活(ID不变)。对跟踪原理不清楚的童鞋请参考之前的旧文章。

参考资料

1、https://arxiv.org/abs/1602.00763

2、http://cs230.stanford.edu/projects_winter_2019/reports/15812427.pdf

3、https://www.youtube.com/watch?v=vGiHciI-NC0

图像Resize方式对深度学习模型效果的影响

在基于卷积神经网络的应用过程中,图像Resize是必不可少的一个步骤。通常原始图像尺寸比较大,比如常见监控摄像机出来的是1080P高清或者720P准高清画面,而网络模型输入一般没有这么大,像Yolo系列目标检测的网络模型输入大小一般为608*608/512*512 等等。那么如何将大尺寸图像输入到网络模型呢?很容易想到的一个方法就是对原始图像进行Resize,将1920*1080的原始图像Resize到网络模型输入尺寸,比如608*608。在压缩图像的过程中,有以下两个问题需要重点讨论:

1、图像Resize前后,是否应该保持宽高比例一致?图像内容变形是否对模型效果有影响

2、图像Resize过程,应该选择什么样的插值方式?

对于第一个问题,其实两种方式均可,前提是要保证模型训练和模型推理时的操作方式一致。也就是说,如果在网络模型训练时,所有的训练素材都是直接拉伸到网路的输入尺寸(不保持宽高比例),那么模型推理时也应该如此,反之亦然。其中保持宽高比例的做法一般是用增加padding的方式,然后用固定颜色填充,保证图像画面中部的内容不变形。下图说明两种方式的差异:

其实对于网络模型来讲,图像是否变形其实不太重要。如果在训练的时候,模型认为一个变形的动物是猫,那么经过大量数据拟合后,在推理阶段,它同样会正确识别出变形的目标。当然根据相关资料显示,通常一般推荐使用直接拉伸的方式去做图像Resize,原因是增加padding填充后会对网络带来一定噪音,影响模型准确性,具体影响有多大我目前没有具体数据证明。这里需要指出的是,一些算法应用框架对细节封装得太好,对原始图像进行Resize的过程被隐藏起来,具体Resize的方式也不得而知。如果你发现模型集成后的准确性下降严重,这时候就需要检查一下框架对图像Resize的方式跟我们模型训练时是否一致。

对于第二个问题,图像Resize过程应该选择什么插值方式?如果对插值不太了解的朋友可以上网搜索一下。这里简单介绍一下图像插值的含义:我们在对图像进行上下采样时(缩放),有时候要在原有像素基础上删除一些像素值(缩小),有时候要在原有像素基础上增加一些像素值(放大),增加/删除像素的方式叫图像插值算法。对OpenCV比较熟悉的朋友可能知道它里面的Resize函数其实有一个‘插值模式’的参数,这个参数有一个默认值:INTER_LINER线性插值。它是一种插值方式,如果你在调用Resize函数时没有修改该参数值,那么该函数就以“线性插值”的方式进行图像缩放。除此之外,还有其他的一些插值方式,每种插值算法的区别请具体参考OpenCV文档。

通过上面的介绍,图像在进行Resize操作时,本质上是改变数字图像矩阵大小和矩阵内容,Resize时采用不同的插值方式最终会得到不同的结果(这里说的结果是指微观上像素矩阵,可能肉眼查看画面差别不大)。那么在深度学习应用过程中,我们应该采用什么样的插值方式呢?经过实际测试验证,不管用哪种方式进行插值,模型训练阶段对图像Resize的插值方式跟模型推理阶段对图像Resize的插值方式最好能保持一致,前后两个阶段不同的插值方式确实会影响最终模型的效果。

除了Resize插值方式应该保持一致之外,Resize的次数最好也能保持统一,如果在模型训练阶段,我们将原始图像素材从1000*800缩放到400*400,然后输入网络进行训练,那么我们在模型推理阶段,同样应该将原始图像以相同的插值方式一次性缩放到400*400,然后输入网络进行推理。之所以强调一次性缩放,因为有些算法应用框架在做图像预处理时隐藏了图像缩放的细节,有可能不止一次缩放操作,比如先将原图缩放到800*800,然后再进行二次缩放,最终变成400*400,虽然两次用到的插值方式都跟模型训练阶段保持一致,但是由于进行了两次操作,还是会影响最终推理效果。

最后总结一下图像缩放方式对模型效果的影响:在模型训练和模型推理阶段,应保持相同的图像预处理方式,这样才能充分发挥模型的推理效果。原因很简单,模型训练的过程就是寻找数据集规律的过程,如果训练用到的和实际推理的数据规律不一样,必然会影响模型效果。当然,本文虽然讨论图像缩放的不同方式对模型效果有影响,但是由于深度学习是一个基于大量数据统计的过程,在有大量数据拟合的情况下,这种影响可能相对来讲并不大,如果你非常在意(或者实际观察发现影响非常大),那么本文讲到的问题可能对你有帮助。

从ReID到AI换脸:图像特征

最近在做视频搜索的技术调研,已经初步有了一些成果输出,算法准确性还可以接受,基本达到了调研的预期。现将该技术调研过程中涉及到的内容总结一篇文章分享出来,内容比较多,初看起来可能关系不大,但是如果接触面稍微广一些,就会发现其实原理都是差不多的。

先描述一下我要解决的问题:上传任意一个车辆截图,需要从海量的监控视频中(高速监控)找到该车辆目标历史经过点位的历史视频录像。这个问题本质上其实就是图像检索或者叫Object-ReId问题,唯一不同的是,找到车辆目标后需要定位到视频录像,后者其实很简单,只需要事先建立好图片和录像片段之间的索引关系即可,跟我们今天要讨论的内容关系不大。(本文图片点击查看更清楚)

图像检索的本质

首先要清楚的是,机器是无法直接理解图像或者声音这种多媒体数据的,甚至也包括一些复杂的结构化数据(比如数据库中的表数据)。传统机器学习中一个常见的概念是“特征工程”,说的是从原始的、复杂的数据中提取出有一定代表意义的特征数据(简单表示,比如用多维向量),这些特征数据相比原数据要简单得多!然后再用算法去分析、学习这些特征数据,得出规律。基于神经网络的深度学习中已经慢慢弱化了“特征工程”这一概念,因为深度学习主流的方式基本都是端到端的流程,输入直接产生输出,特征提取的过程已经在神经网络中的某个部分帮你做完了。

那么现在图片检索的问题,其实已经被转变成“特征数据检索的问题”了。原来需要进行图像比对,现在只需要进行特征比对,而显然机器更擅长后者。

Object-ReId/Person-ReId/Vehicle-ReId的原理

ReId技术一般用于多摄像机目标重识别的场合,目标经过多个点位被多个摄像机拍摄录像存储,输入该目标的一张截图,可以利用ReId的技术将该目标经过的点位找出来,用于后续的运行轨迹分析,该技术一般用于安防/公安领域,目标一般可以是行人(Person-ReId)和车辆(Vehicle-ReId)。ReId的核心就是前面提到的图像检索技术,从海量图片中(视频由图片组成)检索指定的图片,那么这个检索的准确性就依赖于前面提到的特征比对算法准确性了。

上图描述了Vehicle-ReId的一个完整流程,我们可以看到特征比对只是其中的一个环节,完整的流程还要包括车辆目标提取(目标检测)、特征提取、索引建立。

图像特征提取

前面已经知道了图像检索的本质其实就是特征的比对,那么这个特征应该如何提取得到呢?

传统的机器学习可能需要手工设计算法去提取特征,提取的方式有多种多样,拿图像而言,可以从颜色角度入手,提取图像的颜色特征。比如大部分人可能比较熟悉的颜色直方图,这个算法就可以用来计算图像的“像素组成”(比如各种颜色分别占比多少),像素组成确实可以在一定程度上代表原始图片。在某些数据集中,像素组成相似的原始图片也比较相似。然后拿像素组成数据去做分类/聚类,基本就可以搞定这种机器学习任务。

现在流行的深度学习已经抛弃了人工提取特征的做法,取而代之的是直接上神经网络。还是拿图像而言,直接用卷积网络无脑卷一卷,就可以得到对应的图像特征。这种方式提取到的特征是unreadable的,不像像素组成,它确实可以被人理解。卷积网络最后提取到的特征人工无法直观理解,它可能仅仅是一个高维向量,不做处理的话,你都无法在二维/三维空间中显示出来。所以很多人说深度学习(神经网络)是不可解释的,在某种程度上它确实无法被解释。

由前面的内容我们不难发现,特征提取是非常重要的一步,直接关系到后面基于特征的一切应用的准确性。特征是对原始数据的一种表达,是计算机容易识别的一种理想格式。理想情况下,特征之间的特性和规律可以直接反应原始数据之间的特性和规律。传统机器学习过程中,如何找到合适的特征提取方法是一项非常难的事情,现在主流的深度学习过程中,已经简化了该步骤。

需要注意的是,一些论文、博客、文章中对特征的称呼不尽相同,比如Features(特征)/Representation(表达或表示)/Embedding(嵌入)/Encoding(编码)等等基本都是一个意思(注意中文翻译可能不太准确)。其实从这些英文单词不难看出,不管用什么词,人们想要表达的意思大概都是差不多的,即特征是对原数据的简要表达。

上图是深度学习中利用神经网络来提取特征,原始神经网络是一个多分类网络,我们可以使用分类数据集去拟合该神经网络中的参数,待训练完毕后,去掉最上(最右)用于分类的网络层,倒数第二层即可输出128维的特征数据。基于这个128维的特征数据,我们可以做很多事情:

1、原网络做的分类任务。例子中原网络本身就是一个分类网络,对这些特征数据进行分类,推理出原输入图片的类型。看看是巩俐还是奥巴马;

2、本文的重点。特征数据比对,用于图像检索、人脸识别、Vehicle-ReId等;

3、用于无监督学习。先对一堆没有标签的图片数据集合进行特征提取,基于这些特征数据利用K-Means或DBSCAN等算法自动将这些图片分成若干类,类似Iphone相册自动分类功能(比如相同的人脸归为一类)。

总之,特征数据非常有用,是一切机器学习(深度学习)任务中的重中之重。

图像特征比对

前面已经多次提到特征比对,那么特征比对的方式有哪些呢?二维空间中的2个点,我们可以通过计算之间的直线距离来判断它们是否相似(越小越相似,为零表示完全相同。反之亦然);三维空间中的2个点,我们照样可以通过计算之间的直线距离来判断它们是否相似(越小越相似,为零表示完全相同。反之亦然)。那么对于更高维的点呢?照样可以用这种方式去做比较!

这里需要说的是,直线距离只是手段之一,还有其他距离可以计算。比如不太常见的余弦距离,它代表两个点到坐标原点线段之间的夹角余弦值,角度越小代表2点距离越近。余弦距离跟直线距离不同,一个是用角度大小衡量、一个是用线段长短衡量。

我们可以看到,直线距离(欧氏距离)关注点是2个特征的各个维度具体数值,而余弦距离关注点是2个特征的维度分布。直线距离为零,代表2个特征的各个维度数值完全相同;而余弦距离为零,代表2个特征的维度分布完全相同。(1, 1, 1)和(2, 2, 2)两个特征的直线距离不为零,因为它们各个维度的数值不同,但是它们的余弦距离为零,因为它们的维度分布是完全一样的,都是1:1:1。

举一个实际的例子,张三的语数外三科的成绩为(80, 80, 80),李四的语数外三科的成绩为(90, 90, 90),这两的直线距离不为零,李四的三科成绩明显跟张三不同。但是这两的余弦距离为零,可以理解为李四的三科平衡程度跟张三一致,都不偏科。所以不同的距离代表含义不同,直线距离可以用来衡量他们的成绩是否差不多,而余弦距离则可以用来衡量他们偏科程度是否差不多。两个距离,视角不一样。

高维特征降维和可视化

前面举例子用的是二维或者三维数据,其实特征数据大部分时候都是高维的,比如128维或1024维等等。在不做任何处理的情况下,我们无法直观看到这些高维数据之间的关系,因为它既不是二维的我们可以画到平面坐标系中、也不是三维的我们可以画在立体坐标系中。如果想要直观看到数据之间的关系,我们需要对这些特征再次进行降维处理,将之前的高维数据一一映射到二维或者三维空间。比如现在提取到了1000张图片的特征数据,每个数据都是128维,我们如果想要在二维或三维空间观察这1000个特征数据之间的关系(比如特征数据之间的紧密程度),从而判断原始图片之间的关系、或已经知道原始图片之间的关系我们需要验证提取到的特征数据是否合理。

值得高兴的是,已经有非常成熟的降维技术可以使用,比如常见的PCA和t-SNE算法,直接可以将高维数据降到二维或者三维,而依然保留原始数据的特性。通过这些手段我们可以直观看到高维特征数据在二维/三维空间中的呈现,从而观察原数据之间的关系。下图是我提取高速公路视频画面中车辆目标的特征数据,原始特征是128维,然后利用t-SNE算法进行降维处理,最后得到的二维格式数据并在二维坐标系中将原始图片一一对应绘制出来。

我们可以看到,外观相似的车辆(这些图片是随机抽取的,并没有标签数据)聚集在一起,用前面讲到的距离来说,就是越相似的图片特征距离越近。这个可视化的过程基本可以证明我前面设计的特征提取网络是合理的,这个网络用于提取其他类似车辆图片的特征也是OK的。

看到这里的朋友其实可能已经注意到,机器学习(或深度学习)的主要工作其实说白了就是一个不断对数据进行降维的过程,我们可以将原始非结构化数据诸如文字/图片/音频看成是一个维度很高(超高维)的数据格式,然后设计算法将这些超高维数据降到低维格式,再去应用。前面讲到的特征提取也算是降维的一种。

自编码器

谈到降维技术,这里我想介绍一个超级牛逼的结构,学名叫auto-encoder(翻译过来就是自编码器)。我刚开始接触这个东西的时候就感叹于它的神奇强大,因为它结构相当简单,而且理解起来并不费劲,但是起到的效果惊人。它的结构是对称的,前面半部分主要对输入(一般指图片)进行编码,其实就是特征提取,比如提取得到一个128维的特征数据。后半部分马上对该特征进行解码,还原成原来的图片。前半部分叫编码器,后半部分叫生成器。这个东西可以由两个神经网络组成,大概结构类似如下图:

如上图这种结构的神经网络训练也相当容易,你的训练数据集不需要提前标注,因为网络的输出就是网络的输入,换句话说,你可以把它当作无监督学习!有人可能就要问了,一编一解到底想要干什么呢?这样操作的主要目的是得到中间的特征数据(论文术语叫space representation),没错,用这种方式训练出来的前半部分可以当作一种特征提取器(原定义叫编码器),将它作用在其他类似图片数据上,就可以得到对应的特征数据,起到的作用跟前面介绍的其他特征提取方式差不多。

这种自编码器的一大优势是训练它的数据集合不需要标注,训练是一个无监督学习过程。它不像前面提到的那些特征提取方法,大部分都是基于监督学习的。也就是虽然我们的目的是训练一个特征提取的网络(网络输出是高维特征数据),但是往往需要提前准备带有标签的训练数据(如分类数据)。当然,除了这里提到的自编码器之外,还有其他的一些特征提取结构,也属于无监督学习的范畴,比如孪生网络、或者采用triplet loss训练时,这些都是无监督学习的例子。

AI换脸技术

这个话题其实跟今天谈到的特征数据(提取/比对)关系不是特别大,只是前面我已经提到了自编码器,知道了这个结构的前半部分能够应用于特征提取的任务,而刚才没说的是,它的后半部分(生成器)是可以用于AI换脸的,之前火爆全网的AI换脸可以采用类似技术实现。

其实AI换脸原理也非常简单,自编码器的前半部分用于人脸编码(特征数据,下同),它的后半部分基于该编码进行人脸还原(图像生成),这个过程即是我们进行网络训练的过程:一个人脸输入,不断拟合网络让它输出同一个人脸。如果我们在应用该网络结构的时候稍微改变一下:将A人脸输入到它的编码器,得到它的人脸编码后,不要使用对应的生成器去还原人脸,而是改用另外B人脸的生成器去还原人脸!那么会得到什么呢?答案是:得到一张A的脸部轮廓+B的五官细节。下图显示AI换脸的技术原理:

如上图可知,编码器输出的人脸编码在某种意义上可以看作是脸部轮廓的表示,生成器基于该轮廓进行五官细节恢复,最终得到一个合成后的人脸。下面是一个将赵本山五官换到杨澜脸部的例子:

通过AI换脸的这个例子我们可以得知,特征提取相当重要,整个流程能够正常work(或work得很好)大部分依靠中间生成的特征数据(人脸编码)。神经网络的神奇之处就在于,有些东西你无法解释,但是就是凑效。

其他常见的无监督学习

既然提到了AI换脸,索性就将本篇文章的主题扯远一些。自编码器的训练过程属于无监督学习的范畴,根据相关大神的名言:无监督学习才是真正的人工智能。确实没错,监督学习在某些场合有非常多的局限性。那么除了上面提到的自编码器训练属于无监督学习,机器学习领域还有哪些无监督学习的例子呢?

1、类似K-Means这些聚类算法,算法可以自动从给定的数据(特征数据)寻找规律,无需事先提供参考样例

2、类似t-SNE这种降维算法,算法可以自动从给定的数据(特征数据)寻找规律,无需事先提供参考样例

3、类似上面提到的自编码器,以及其他一些生成型网络,包括GAN相关技术,都属于无监督学习

4、类似采取triplet loss等技术直接操控特征数据的网络训练方式(基于特征数据计算loss),也属于无监督学习

只要在训练过程中无需事先提供参考样例(标注样本)的机器学习过程全部都可以看作是无监督学习,无监督学习跟算法并没什么直接关系,传统机器学习、现在主流基于神经网络的深度学习都可以有无监督学习方式。

好了,本篇文章到这里结束了。由于时间原因,以及查资料验证费时间,前前后后花了半个月功夫。其实主要目的是为了说明特征数据在机器学习(深度学习)领域的重要性,这个领域基本所有的东西全部围绕它展开的,所有的原始非结构化数据/结构化数据都需要先转成特征数据,再被机器学习算法(深度学习神经网络)学习。

生成型神经网络

最简单的X->Y映射

读书时代课本上的函数其实就是我们最早接触关于“映射”的概念,f(x)以“某种逻辑”将横坐标轴上的值映射到纵坐标轴。后来学习编程之后接触了函数(或者叫方法)的概念,它以“某种逻辑”将函数输入映射成输出,映射逻辑就是函数本身的实现过程。映射就是将若干输入以某种逻辑转换成若干输出,课本上的函数是这样,编程中的函数是这样,深度学习中神经网络同样是这样。

最简单的映射逻辑是线性映射,类似f(x)=w*x + b这样,它的函数图像是一条直线,其中w和b是映射过程用到的参数。高中数学中的抛物线f(x)=a*x*x + b*x +c 是一种比线性映射更复杂的映射关系,同样a、b、c是该映射过程要用到的参数。 这里不管是w还是abc这样的参数,同样存在于神经网络这种高复杂度的映射过程之中,事实上,我们完全可以将神经网络类比为我们更为熟悉的直线、抛物线结构。

与我们读书学习直线、抛物线不同的是,书本中直线、抛物线函数的参数大部分时候都是已知的,而神经网络中的参数是未知的,或者说不是最优的,我们需要使用已知的样本(输入/输出)去拟合网络,从而得出最优的参数值,然后将拟合(学习)到的参数应用到新数据中(只有输入),拟合的这个过程叫做“训练模型”或者“学习”。

神经网络的输入输出

前面说到映射过程有输入和输出,同样神经网络也有输入和输出。就计算机视觉领域相关任务来讲,有图像分类网络,有目标检测、分割等网络,也有专门用于图像特征提取的网络,这些网络的输入基本都是图片,输出要么是分类概率值,要么是跟目标有关的像素坐标值,或者是高维特征向量值,这些输出有一个共同的特点,都属于数字类输出,就像我们刚接触机器学习时预测房价的案例,算法输出是房价,也是数字类型。那么神经网络是否还有更复杂的输出格式呢?答案是有,神经网络可以输出更高维的数据结构,比如图片。虽然严格来讲,图片也是由数字组成,但是为了与前面提到的简单输出类型区分,我们可以将输出图片的这类神经网络称为“生成型网络”。顾名思义,生成型网络的特点是可以生成类似图片这种直观结果(或者类似网络输入那种更高维数据)。

生成型网络的训练方式一般比较特别,大部分都是无监督学习,也就是事先无需对样本做人工标注。事实上,了解生成型网络是我们熟悉无监督学习的一种非常好的途径。

生成型网络的实现方式常见有两种,一个是AutoEncoder,翻译成中文叫“自编码器”,基本原理就是将输入图片先编码,生成一个特征表达,然后再基于该特征重新解码生成原来的输入图片,编码和解码是两个独立的环节,训练的时候合并、使用的时候拆开再交叉组合。前几年非常火的AI换脸就是基于AutoEncoder实现的,代码非常简单,之前的一篇文章对它有非常详细的介绍。另一个是GAN,全称Generative Adversarial Networks,翻译成中文是“生成对抗型网络”,它也是由两部分组成,一个负责生成一张图片,一个负责对图片进行分类(判断真假),训练的时候一起训练,使用的时候只用前面的生成网络。GAN也是本篇文章后面介绍的重点内容。

GAN生成对抗型网络工作原理

首先要明确地是,最原始的GAN是2014年提出来的,它可以基于一个无任何标注的图片样本集,生成类似风格的全新图片,就像一个画家,看了一些示例后,可以画出类似风格的画。2014年提出来的GAN结构相对简单,也存在一些缺陷,比如生成的图片分辨率太低、网络训练很难收敛。后面有人陆陆续续提出了各种改进版本的GAN(变种),虽然各方面都有所调整,但是整体思想仍然沿用第一版,这里也是介绍最原始GAN网络的工作原理。

GAN网络主要由两子网络组成,一个学名叫Generative Network(顾名思义,生成网络),输入随机数,输出一张固定尺寸的图片(比如64*64大小),另一个学名叫Discriminative Network(顾名思义,辨别网络),输入前一个网络生成的图片以及训练样本集中的图片,输出真和假(生成的为假、样本集中的为真)。如果单独分开来看,这两没什么特别的,一个负责生成图片、一个负责判别真假。但是,GAN高妙之处就在于这两在训练过程中并不是独立的。我们先来看下GAN的结构:

上面显示的GAN网络结构其实非常简单,但是只看这张图的人可能会有一个疑问?训练样本集只作为辨别网络(Discriminative network,简称D)的输入并参与训练,它是怎样对生成网络(Generative network,简称G)起到作用的?答案在GAN的训练过程中,GAN的训练方式主要可以归纳成3个要点:

1、将G的输出作为D的输入,并以False标签来训练D网络,更新D网络的参数,让D知道什么是假的;

2、将训练样本集输入D,并以True标签来训练D网络,更新D网络的参数,让D知道什么是真的;

3、将D的参数冻结,再将D和G两个网络串起来,G的输出还是作为D的输入,但是这次以True标签来训练整个组合网络。由于D的参数已经冻结,所以整个训练过程只会更新前面G网络的参数,让G知道如何生成看起来像“真的”图片。

上面的过程1和过程2让D越来越聪明,知道什么是真的、什么是假的。过程3让G也越来越聪明,知道如何调整自己的参数,才能让生成的图片更能欺骗D。随着上面的过程不断反复,G不断的更新自己的参数,虽然输入的一直是随机数,但是输出的图片却越来越像训练样本集中的图片,到此完成了对G的训练。下面用图来说明上面的过程:

GAN(变种网络)可以解决哪些任务?

基于GAN思想的生成型网络有很多应用,比如素材生成,当你已经有一定数量的图片样本后,你可以利用GAN生成更多类似但完全不同的图片,提升样本库的丰富性。目前比较成熟的风格迁移(style transfer)也用到了GAN思想,可以将一张手机拍摄的自然风景图片转换成山水画、卡通画风格。下面是利用Pro-GAN网络生成的图公路像素材,刚开始生成的图像模糊,随着训练时间增加,生成的图像越来越清晰、并且能够保持与已有样本集一致的风格。