近期,人工智能学院2022级电子与信息工程专业本科生林俊豪同学以第一作者身份完成的研究论文《Multi-modal Cross-Attention Guided Network for Audio-Visual Quality Evaluation via Visual Saliency and Mel-spectrum Features》,成功在视频处理领域国际权威期刊《IEEE Transactions on Circuits and Systems for Video Technology》(TCSVT)在线发表。据悉,该期刊为中科院大类、小类双一区Top,最新影响因子达11.1,同时入选我校理工类标志性期刊,学术影响力与行业认可度兼具。本论文唯一通讯作者为崔跃利教授(正高级实验师),台州学院为第一完成单位。值得关注的是,这是人工智能学院办学以来,首篇由本科生作为第一作者完成的理工类标志性科研成果,充分彰显了人工智能学院在拔尖创新人才培养与高水平科学研究方面的显著成效。

图1:所提出模型的系统方案
传统视觉质量评价模型和现有专用音视频联合质量评价模型,在视听信号感知质量的精准评估中均存在局限性。针对这一核心挑战,本研究从人类听觉与视觉的感知特性出发,深入剖析双模态信号间的内在交互作用机制,进而提出一种专为音视频质量评估设计的新型多模态交叉注意力引导网络。实验结果证明,该模型能够自动、有效地评价视听信号的联合体验质量,且评价结果与人眼视觉及人类听觉感知系统保持较高相关性。该成果有望应用于流媒体服务质量优化、VR/AR沉浸式媒体体验保障等核心场景,可作为音视频编码算法优化等增强技术的客观评估基准,为音视频产业的高质量发展提供技术支撑。
该研究得到了国家自然科学基金面上项目(No. 62471328)和浙江省自然科学基金重点项目(No. LZ26F020014)经费资助。
论文链接:https://ieeexplore.ieee.org/document/11345165
文:代雅倩/图:林俊豪/审核:张石清/责任编辑:李鑫