陈奇网络工作室

StartDTAILab|视觉智能引擎——Re-ID赋能线下场景的客户数字化

云计算

人货场的思想是整个新零售数字链路的核心,人是整个商业生命周期的起点,图像算法的首要目标是从图像中获取“人”。上一篇文章主要讲了Face ID的发展,帮助商家赋能线下用户画像,将视觉计算的热情带到了支付、安防等各行各业。

诚然,分析人有很多方法。在各种分析行人的算法中,人脸算法有着得天独厚的优势,在验证身份(精确到支付验证)上是最准确的,但是人脸算法在定量统计上的准确性肯定不是最优的。由于很多场景中的Face ID受光线遮挡的影响,质量参差不齐,所以基于行人身体的识别诉求越来越强。

我们常说一个算法体系就是一个取舍,鱼和熊掌不可兼得。这里鱼指的是准确性——准确识别人(人脸技术),熊掌指的是召回率——充分捕捉行人(身体技术)。只有人脸技术和人体技术紧密结合,我们整个场景的人的分析才能全覆盖,人这个维度的分析才更有价值。然后我就重点说一下行人识别的整体技术环节。

01人体检测

通过计算机视觉信号结构化提取人体相关信息的第一步通常是人体检测。由于奇点云业务赋能的相关产品和系统广泛分布在广泛的业务场景中,对人体检测的鲁棒性提出了更高的要求。在无约束视觉场景中,人体检测遇到的主要问题有:

尺度变化很大:人的体型不同,成人和儿童的对比会有很大差异。行人与摄像头的距离也会造成很大的尺度变化。特别是这两个尺度问题的叠加,会造成更大的困难。

人体的姿势变化很大:直立行走、弯腰工作、坐着休息、三五成群出行等。这些都会带来人体体型的巨大变化。

摄像头造成的失真:目前行人检测赋能的场景和商业盈利的要求,已经极大的限制了行人检测相关硬件的成本。因此,摄像机本身的成像质量和部署导致的图像畸变非常普遍,给人体探测带来了很大的干扰。

图像模糊:在行人检测训练中,由于行人所处的场景广泛,作为负样本的背景往往存在形状、纹理、外观与人体相似的场景,光照角度的影响使得部分负样本与真实样本混淆。

遮挡:在拥挤的行人场景中,行人会互相遮挡,在不同的场景中穿梭,这往往使得位置固定的摄像头无法完全检测到人体,这也给人体检测带来了很大的困难。

速度要求:人体检测赋能的场景往往是类似安防的场景,需要处理的数据量巨大。因此,为了保证某些服务的实时性要求,要求人体检测模型的检测速度更高。但由于任务艰巨,模型庞大,人体检测要想在不降低准确率的情况下提高速度,就需要更高的技术。

StartDT AI Lab针对上述一系列问题展开了针对性的攻击:

?在数据准备方面,花费很大,通过自标注,形成百万级数据样本库,尤其是在零售商业场景,积累非常丰富。

?在模型算法方面,充分借鉴了当前主流的布设锚框和关键点检测的方法,最近取得了很大的突破。通过不断的迭代和实验,目前的算法在准确率和召回率上完全可以满足当前业务场景下的人体检测任务。

?在提高模型推理速度方面,StartDT AI Lab主要从两个方面入手,降低模型的计算复杂度。一方面,对主干神经网络进行压缩,在尽可能不降低特征提取性能的情况下,减小主干的大小。另一方面,探测器模块被优化以确保探测器的整体性能不会降低。通过不断的版本迭代,目前的模型规模只有第一代模型的十分之一不到,在相同的计算资源下,模型的处理效率有了很大的提高。

02行人重新识别

行人再识别的技术本身就是脱胎于度量学的大范畴,人脸识别就是一类要解决的问题。通过检索,我们希望将行人的空间信息和时间信息关联起来,聚类在一起,这样就很容易理解再识别。如果我们能在一个摄像头里找到一个行人出现的痕迹,那么我们就完成了一次跨界追踪。

想象一下,如果你在迪士尼乐园/机场/大学校园里和孩子走散了,除了“xx小朋友,你爸妈在广播室等你”这种被动的广播方式之外,还有这样的场景。我们可以翻立体点图找到熊海子。而真正的点图可以通过重新识别来实现:主动输入孩子的照片,在不同位置的多个摄像头下检索当前帧,在熊海子里找到新兴的摄像头。最后,联系摄像头的位置,就可以定位孩子了。这个应用还可以用来找小偷/保护vip等等。这种想象确实很刺激,但这样的未来感画面也不是一朝一夕就能实现的。StartDT AI Lab背后的大量技术支持,可以让行人再识别技术发挥应有的作用:

1.人体跟踪机制:视频结构中的行人跟踪可以归结为一个多目标跟踪问题。我们主要通过过滤和贪婪算法来整合与每个行人ID相关的信息。在短时间内,跟踪可以根据前后帧的相关性快速匹配出一个行人的行人帧。这样做有两个好处:一是增加空间的连续性,一个视频帧中前后帧之间有行人的空间信息,所以跟踪可以使其具有空间性。第二,节省了计算成本。在整个跟踪过程中,只需要代表性地分析某一帧数据,就可以在更高维度上控制整体信息。

2.人体骨架点分析:对于行人再识别,通过计算机视觉技术获得人体骨架点,这些关键点可以为行人再识别提供关键的先验知识。首先,并不是所有检测到的行人都适合重新识别。其中,不完整的行人和低分辨率的行人会对模型产生一定的影响。为了避免这些脏数据的影响,骨点可以提供一定的过滤作用。我们通过骨点的数量对行人的完整性进行定性评价。同时,骨骼的位置信息也是我们行人对齐的关键。不同的行人姿势和位置需要通过骨骼的关键点来对齐。通过对齐行人特征,减少身体部位的错位对结果有很大影响。

3.人员再识别:行人再识别是利用监控视频中的Re-ID模型,从行人的图片中提取特征。这个特点就是相似的行人近,不同的行人远。这种高维嵌入特征可以帮助我们找到不同摄像头下的同一行人。虽然技术很新很先进,但是在实际场景中,我们在分析行人图片的时候,不可避免的会出现行人残缺的情况。如果直接过滤掉这些行人,在更高层次的数据统计维度上产生的系统误差会对召回率产生很大的影响。行人不完整,我们就被商家逼着用不完整的人体来做对比。我们有意将这样的噪声数据加入到模型训练中,同时以无监督的方式对齐物理特征,提高了算法对不完整行人的鲁棒性。

03样本生成

数据样本是人工智能技术的基础。然而,数据积累是一项极其耗时、费力和昂贵的任务。虽然有一些数据量可观的公共数据集,但这些数据集本身存在样本分布不均匀、样本多样性差等问题。此外,不同应用场景下的数据分布存在一定差异,会严重降低模型的泛化能力,因此需要对现场数据进行标注,尤其是Re-ID样本。

在项目中,由于场景摄像机画面的行人数据分布与公共数据集存在巨大的域差异,使得公共数据集在该场景下训练的Re-ID模型准确率较低,无法满足实际需求。为了解决这个问题,我们使用生成对抗网络(GAN)将公共数据集中的行人转化为实际场景中的图像样式。经过重新训练后,模型的准确率提高了50%%u4EE5。此外,我们还通过GAN实现行人姿态的变化,提高数据集的多样性;通过注意机制,加强对行人特征(头部、四肢等)的学习。)除了衣服,以解决行人换衣服导致准确率下降的问题。

风格转移:

风格转换前

风格转换后

行人服装更换:

通过以上技术演示,读者对行人再识别(Re-ID)技术有了全面的了解,对奇点云对技术的极致追求有了新的认识。通过行人识别技术将VIP系统之外的稀疏用户行为放入整个乘客画像中,为动态分析和热分析提供了可能。同时也弥补了Face ID不能作用于广义统计维度的缺点。StartDT AI Lab通过各种算法相互配合,取长补短,产生微妙的化学反应,最终重新定义客流体系,将商家的分析维度提升到一个新的高度。

更多关于云服务器,域名注册,虚拟主机的问题,请访问西部数码代理官网:www.chenqinet.cn。

后台-系统设置-扩展变量-手机广告位-内容页底部广告位3