我校张石清教授2018年在多媒体TOP期刊《IEEE Transactions on Multimedia》(IF=3.977)发表题为“Speech Emotion Recognition Using Deep Convolutional Neural Network and Discriminant Temporal Pyramid Matching”的研究论文,近三年他引频次达到了107次,已进入计算机科学(Computer Science)学术领域最优秀的 1% 之列,成功入选ESI高被引论文。张石清老师为第一作者和第一通讯作者。
利用说话人的语音信息来识别用户的情感状态,即语音情感识别,是当前人工智能领域一个热点研究课题。本文针对现有手工提取的语音情感特征参数存在的“情感鸿沟”问题,研究利用新发展的深度卷积神经网络(CNN)从原始的语音信号频谱中学习出高层次的语音特征用于语音情感识别,提出了一种基于CNN和判别式时间金字塔匹配(Discriminant Temporal Pyramid Matching,DTPM)算法的语音情感识别方法。
论文链接:https://ieeexplore.ieee.org/abstract/document/8085174。该研究工作得到了国家自然科学基金项目和浙江省自然科学基金项目的资助。
图1基于CNN和DTPM的语音情感识别模型