1. 摘要受类脑感知中的信息智能分析方式启发,在充分研究智能城市中海量高清视频影像的多源异构、背景复杂、高分辨率等特点基础上,结合智能感知与类脑学习机制构建适用于视频影像的深度强化网络模型,解决复杂背景下视频数据的目标特征表达和主动学习问题,以智能识别、安防监测、危害预警等为应用核心,打造以深度学习为核心的城市视频监测与危害行为预警为一体的大数据智能分析系统。2. 系统功能(1) 建立视频数据的深层次方向波网络模型;(2) 实现基于深度方向波网络模型的数据表示和特征学习;(3) 提出强化学习机制和深度方向波相结合的人员危害行为检测方案;(4) 建立针对海量视频监测中人员危害行为预警的原型验证软件系统。3. 关键技术高清视频数据存在背景信息复杂多样、海量、异构、难以获取大量标记样本等问题,为传统的视频检测分析算法带来了困难,围绕着深度方向波强化学习构建视频数据的稀疏深层网络和自主学习模型这一难题,我们开发基于深度强化学习网络的大数据视频监测和危害行为预警系统,关键技术如下: (1) 针对海量的高清视频,解决深层次网络中的数据表示和特征学习问题 为解决高清、海量和背景复杂的视频数据在智能检测和目标识别问题中的稀疏特征表征和学习等瓶颈问题,模拟人类大脑的神经连接,将基于方向波的特征表征和学习的单层网络结构连接叠加,未经标记的数据采用多个方向波网络分层对其特征进行描述,组合低层特征形成更加抽象的高层表示、属性类别或特征,最终给出数据的分层特征表示与解释。利用方向波核函数构造一系列权值系数作为稀疏神经网络的初始化参数,设计具备稀疏解析能力和各向异性的卷积和池化特征提取层,构建具有快速学习能力的深度方向波网络非线性回归的层级结构。(2) 结合视频目标特性构建具有高效学习能力的深度方向波网络建模由于深度方向波网络能够高效地学习和提取输入数据的深层次抽象特征和高维的空间特征,因此基于方向波变换的深度神经网络在视频数据上相比主流框架具有更大的优势。然而受到视频规模和背景信息的复杂性影响,特定方向的方向波网络层并不能满足特征学习的精度要求,引入强化学习策略可以通过反馈评价和奖励机制实现方向波中78种方向组合的主动选择,得到更有优势的学习结果。因此,在设计实现深度强化方向波学习网络的目标建模和检测过程中,如何进行超参数选择和误差函数优化,如何设计和定义方向选择的自主动作、反馈评价和奖励函数,是强化学习机制能否对深度方向波网络的收敛性能和检测精度起到正面作用的关键问题。(3) 解决多源异构视频数据监测中人员危害行为的实时性智能预警问题结合深度强化学习机制构建适用于视频影像的深度方向波网络模型,解决复杂背景下视频数据的目标特征表达和主动学习问题,对人员危害行为进行特征建模和目标学习,构建以深度强化学习网络为模型的城市视频监测与危害行为预警为一体的大数据智能分析系统。4. 技术指标(1) 人群异常行为检测率优于90%,误报率5%-10%;(2) 非法闯入、穿越、滞留等可疑行为检测率90%以上,误报率不高于10%;目标跟踪和远距离目标检测能实现窗口大小自适应;(3) 禁停区违法占用或停留车辆检测率不低于90%,误报率不高于10%;(4) 系统中视频去噪、夜间增强等模块能够使原始视频质量得到有效提高,提高后续检测与预警的准确率。5. 目前处于研发阶段,已经完成基本的算法功能,搭建成真实场景的交通和安防视频演示和识别系统。6. 项目特色与创新之处如下:(1) 针对海量、异构和复杂背景的视频数据集的深层描述和特征学习问题,借鉴人脑层次化认知和学习规律,将稀疏各向异性特征表示和深层网络的特征学习相结合,设计具备稀疏解析能力和多方向各向异性的卷积层和池化层的网络结构,针对视频数据集特性构建具备高效稀疏的特征描述和深层次理解能力的网络模型。(2) 针对视频数据的小样本大数据的检测和识别问题,采取主动学习机制,结合方向信息自主选择的反馈评价和奖励策略,提出基于强化学习机制的深度方向波强化学习网络模型。对上述深度方向波网络模型构建相应的视频训练数据和测试集合,并通过实测数据验证网络模型和实现方案的有效性和先进性。(3) 改变传统平安城市视频监控的系统结构模式,以智能交通、安防监测、危害预警等应用平台为核心,打造以智慧城市大数据深度学习网络为模型的视频监测与危害行为预警为一体的智能视频分析系统。西安市是陕西省乃至西北的发动机和心脏,是当前中国西北部的最大“绿洲”,同时成为西北区域资源、人口的最大聚集地,甚至未来成为“千万级人口大都市”。然而,随着人口落户的不断增加,城市将承载越来越多的压力。对于我省而言,近年来城镇化建设过程中正逐步展开不同范围、不同程度的城市建设工作。随着各地城市建设的不断深入,公安、政府等部门对视频的应用需求越来越具体,越来越复杂,即要求系统要更加贴近交通、公安、政府等部门的实战需要。为解决陕西省城市发展难题,实现城市可持续发展,对于危害行为的智能监测系统作为智慧城市的重要组成部分日益受到大众的关注与重视。智慧城市的智能监测不再是简单的视频监控,也不仅仅限于多级联网监控报警,而是面对社会危害行为、紧急突发事件、灾难灾害以及恐怖事件的迅速反应,可以做到准确有效的监视、智能高效的预警处理,并提供视频依据。智能化的视频监测系统将为智慧城市和平安社会的建设提供良好保障,使得城市安全保障再次提升。 如今全球多个国家和地区的安全形势严峻,城市视频监测与安防正在快速普及,但由此产生大量无用视频造成严重信息污染,使价值线索提取变得十分困难。在城市安全、交通管理中将部署大量的视频监控设备,这些视频监控设备将产生大量的视频及其相关的数据,如交通卡口数据达到十亿条甚至更大级别,人像库的数据量达到千万条甚至更大级别。在道路交通应用中,卡口过车数据呈爆炸式增长。对于一个城市,每个卡口每天会经过成千上万辆车,假设一个城市有1000个卡口,每个卡口每天平均过车记录数为10000次,需要对一年内的数据进行处理,则过车记录总数为36.5亿。同时,一个城市每天产生的治安视频大概相当于1000亿张照片,一名警察全部看完大概需要100余年。预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。针对如此大级别的数据量,当前系统会逐渐暴露出数据检索速度、数据统计、分析效率越来越低等问题。随着“智慧城市”中城市安全、智慧交通等的迅速发展,城市中非结构化的数据量越来越大。可以预见在未来的“智慧城市”建设中,视频的数据量会爆炸性增长,对视频数据挖掘的能力要求越来越强,成为制约当前城市发展和臻待解决的瓶颈问题。与视频数据获取能力形成鲜明对比的是视频信息处理能力十分低下。现有的数据处理和分析技术,主要针对单一传感器设计,没有考虑在智慧城市建设中多源异构视频数据的协同处理要求。此外,视频信息处理技术和数据获取能力之间出现了严重的失衡,信息处理仍然停留在从“数据到数据”的阶段,在实现从数据到知识转化上明显不足,对大数据的利用率低,陷入了“大数据,小知识”的悖论。更有甚者,由于大量堆积的数据得不到有效利用,海量的数据长期占用有限的存储空间,将造成某种程度上的“数据灾难”。因此,研究满足智慧城市环境监测需求的大“数据流”智能化处理方法,实现从大数据到知识的转变,突破这种“大数据,小知识”的数据应用瓶颈,实现对城市用地、绿化等序列变化信息的实时提取,将在陕西省智慧城市的建设和发展中起到重要的作用。因此,必须在视频大数据处理平台将引入最新的机器学习和人工智能算法来提高整个系统的分析能力,从日趋海量的非结构化视频数据中快速发掘高价值的信息,协助并提升决策的效率和精准度。目前我省智慧城市智能监测和预警的基础平台刚刚建设,关于该方面的研究国内外均在起步阶段。此外,陕西省正在以西安为首积极推进一体化城市综合交通体系建设,将在“十三五”期间全面打造全国公路交通枢纽,构建现代综合交通运输体系,梳理当前交通管理中存在的热点问题和难点问题,并根据问题利用大数据、云计算、移动互联网等先进技术解决问题,为陕西省智慧交通“十三五”发展提供顶层设计,让市民尽享智慧交通发展成果。同时积极推进综合交通、智慧交通、绿色交通、平安交通有机协调发展,加快形成网络设施配套衔接、技术装备先进适用、努力推动陕西省智慧交通运输体系建设跻身全国前列。西安是高速公路密度最大的城市之一,在全国公路网中占据重要地位。在高清摄像机、无人机或卫星图视频监控区域内的高速公路、高架路区域由于道路幅面宽广、行驶速度快、易发生重大交通事故、配备定点警力不现实等特点,故采用传统监控无法满足监控需求。建立智能视频分析、监测、预警系统需要实时地对机动车车体、行驶方向、速度、车道属性、非车物体、行人特征进行综合分析判断,同时,亟需解决高速公路事故检测和预警,以及对进入禁停区域和占用应急车道的车辆进行快速检测和识别等问题。由于视频数据影像具有高分辨率、种类多样、结构复杂、数据量大等诸多特点,因此给传统的数据分析处理方法带来了诸多压力与挑战: Ø 视频数据的多源、异构和海量性特点 目前的高分辨率、高动态的新型红外和可见光摄像机、小型无人机、交通探测雷达、遥感卫星等视频数据获取具有数据量大、分辨率高、扫描幅度宽、模式异构以及来源多样等特点。摄像机成像效果差别较大,包括:视频亮度、颜色、清晰度等等。对于智能视频分析系统来说,必须克服这种差别,提供一致的结果。 摄像机安装条件不同与补光条件不同。由于监测的实时性要求,单位时间内获取的数据量急剧增加,极大地增加了计算的复杂度。同时,异构数据之间的信息融合和目标传递跟踪等,对传统的视频处理方法提出了挑战。Ø 背景与观测目标复杂多样相对于中低分辨率影像而言,高清晰视频影像提供了更为丰富清晰的目标形状、结构等几何信息,但由于地面环境和观测场景的复杂多样,缺乏统一的特征分析和学习模型。因此,深入挖掘高分辨率和高维度特征,寻求深层次和抽象化的语义描述和表示,是视频影像智能处理与分析的重要任务。 目标识别的海量样本 基于深度学习的特定目标识别与传统机器学习相比在识别精度与复杂场景适应性方面有着绝对的优势。然而,对于海量视频数据,由于场景多样性、目标姿态多样性、环境多样性等特点,对于需要精确识别的特定目标(人脸识别、车牌识别等)需要海量的正负样本来训练,以提高学习器的泛化性能。Ø 视频预警的实时性要求随着科学技术的进步,成像设备分辨率不断提高与实际监控场景的需求不断提高,基于视频的处理与分析技术对算法的实时性要求愈来愈高。基于GPU加速的视频监控处理与分析技术显得尤为重要。Ø 大场景与小目标事件对于固定总像素的摄像机,场景越大,针对的目标像素就相对越小。对于目标检测,小于一定的像素值时误差将会呈指数形式的增长,过大的场景中会发生过多过复杂的事件,以目前设备及算法的性能难以负担这种挑战。Ø 场景环境变化基本上所有的摄像机都会遇到场景环境的变化,白天、黑夜、黄昏、阴天等等,特别是对于室外使用的摄像机,风、雪、雨、雾以及季节性气候变化都会给环境场景带来变化。智能视频分析系统必须适应或排除这些变化才能取得比较好的应用效果。针对高清视频影像的复杂环境和数据的海量性等特点,采用智能感知和类脑计算策略,面对多种监测分析任务和预警需求,深入发掘高分辨视频影像时间、空间、结构信息,建立起高效的深度强化特征分析和学习模型,研究大数据、小样本条件下具有强鲁棒性的视频监测分析和预警算法是打造当前和未来智慧城市与公共安全方面的一个重要研究方向。