新模型!模拟人眼预测图像质量,失真也不怕

发布时间:2021-03-18

论文题名:Structured Computational Modeling of Human Visual System for No-reference Image Quality Assessment

论文作者:Wen-Han Zhu, Wei Sun, Xiong-Kuo Min, Guang-Tao Zhai, Xiao-Kang Yang

全文链接:https://link.springer.com/article/10.1007/s11633-020-1270-z

参考链接:https://mp.weixin.qq.com/s/hXaKyrSaqnUpkRsqaEqJkQ

图片来自Springer

高质量的视觉体验是数字媒体产业及网络信息服务等主要应用领域的基本要求,而图像质量评价(IQA)致力于评价人的视觉感知能力、预测图像质量。人眼是视觉体验的最终评价者,因此对人眼视觉系统建模(human visual system, HVS)是进行图像质量评价和视觉体验优化的核心问题。

上海交大翟广涛教授团队提出了一种新的人眼视觉系统结构化计算模型。该方法将自然图像统计的特征作为低层特征,将卷积网络中的深度特征作为中层特征,将基于自由能的特征作为高层特征。最后,利用支持向量回归(SVR)将这三层特征集合成感知质量指数,预测目标图像的质量分数,模型在多种主流失真图像中仍能保持良好性能。

图片来自论文

21世纪是信息网络时代,互联网已经成为人们获取最新信息及开展娱乐的重要途径,包括图像和视频在内的视觉信息已占互联网总流量的80%以上。高质量的视觉体验是数字媒体产业及网络信息服务等主要应用领域的基本要求。图像质量评价(IQA)是图像处理领域的一个基本问题,它致力于评价人的视觉感知能力、预测图像质量。

虽然主观IQA是最准确的方法,但其缓慢、费时、费力且难以重复的特点极大限制了它的发展。与此相反,客观图像质量评价(IQA)借助数学度量(mathematical metrics)来自动预测图像感知质量,并且已经得到广泛研究。在常见的IQA数据库中,失真图像通常由原始图像(称为参考图像)退化而来。根据参考图像可用信息的多少,客观IQA算法可分为完全参考(FR, full-reference)、半参考(RR, reduced-reference)和无参考(NR, no-reference)三类。

人眼是视觉信号的最终接受者,也是人类视觉体验的最终评价者。人眼视觉系统的计算建模是视觉体验优化的关键科学问题。传统的基于黑箱拟合(black box fitting)的模型解释性差,难以有效地指导体验优化,而基于生理模拟(physiological simulation)的模型计算复杂,难以融入实际的视觉传达服务之中(practical visual communication services)。

为填补信号失真(signal distortion)与视觉体验(visual experience)之间的鸿沟,本文基于HVS结构化计算模型,提出一种全新的感知无参考(NR)IQA算法(perceptual no-reference (NR) IQA algorithm)。根据人脑的机理,将视觉信号处理分为低层视觉层(low-level visual layer)、中层视觉层(middle-level visual layer)和高层视觉层(high-level visual layer),分别进行像素信息处理(pixel information processing)、局部基元信息处理(primitive information processing)和全局图像信息处理(global image information processing)。

图片来自论文

从这三层中提取基于自然场景统计的特征(natural scene statistics (NSS) based features)、深度特征(deep features)和基于自由能(free-energy based features)的特征,并采用支持向量回归(support vector regression)对特征进行聚合,得到最终的质量预测(final quality prediction)。在三个广泛使用的基准IQA数据库(LIVE、CSIQ和TID2013)上开展的大量对比实验表明,本研究所提出的指标很具竞争力,甚至优于当前最先进的NR IQA指标。

来源:《International Journal of Automation and Computing》编辑部