李艳雄

发布日期：2024-05-03 浏览次数：次

更新日期：2021年7月7日姓名李艳雄性别男出生年月籍贯湖南嘉禾县民族汉族政治面貌中国共产党党员最后学历博士研究生最后学位工学博士技术职称副教授导师类别博、硕导行政职务 Email eeyxli@scut.edu.cn 工作单位电子与信息学院邮政编码 510640 通讯地址广州五山华南理工大学清清文理楼303 单位电话 15915766896 个人简介博士、博士后、副教授、珠江科技新星、广东省“千百十人才工程”培养对象、IEEE高级会员、中国电子学会高级会员。曾在香港城市大学、英国谢菲尔德大学、新加坡资讯通信研究院、芬兰坦佩雷大学、中科院自动化所开展研究工作。主持了多项国家级、省部级和企业委托研发的科研项目；在IEEE TIFS、IEEE TMM、IEEE Access、Elsevier SP、Elsevier DSP、Elsevier CSL、Springer MTA、IET SP、IEEE ICASSP等国际权威期刊及顶级会议上发表论文30余篇；获得多件授权专利；获得省、市科技进步奖各1项。研究方向：语音及音频信号处理、机器学习、模式识别。工作经历 2019.7-2019.10 芬兰坦佩雷大学访问学者2018.7-2018.8 模式识别国家重点实验室客座教授2016.7-2016.8 新加坡资讯通信研究院访问学者2013.9-2014.9 英国谢菲尔德大学博士后2008.9-2009.9 香港城市大学研究人员教育经历 2009 华南理工大学通信与信息系统博士2006 湖南师范大学电路与系统硕士2003 湖南师范大学电子信息工程学士获奖、荣誉称号 2017 广东省科技进步二等奖（基于汉语加工机制的语言障碍精准测评及康复应用）2016 广州市科技进步三等奖（基于互联网及语音识别技术的家庭语言障碍评估与训练）2014 广东省“千百十人才工程”培养对象2013 广州市珠江科技新星社会、学会及学术兼职国家自然科学基金项目和省科技项目的评审专家，IEEE Transactions等期刊的审稿人。研究领域语音及音频信号处理、机器学习、模式识别。科研项目 [1] 基于深度学习的复杂音频说话人分析关键技术研究，国家自然科学基金项目[2] 会议音频中的声学事件检测及说话人分析方法研究，国家自然科学基金项目[3] 复杂音频的声学事件检测及场景分类关键技术研究，广东省科技计划项目[4] 多人会话语音文档的音频内容分析方法研究，广东省自然科学基金项目[5] 海量语音数据内容分析关键技术研究，广州市科技计划项目发表论文 [1] Speaker clustering by co-optimizing deep representation learning and cluster estimation, IEEE TMM, 2021.[2] Domestic activities clustering from audio recordings using convolutional capsule autoencoder network, IEEE ICASSP, 2021.[3] A stage match for query-by-example spoken term detection based on structure information of query, IEEE ICASSP, 2021.[4] Violence detection in videos based on fusing visual and audio information, IEEE ICASSP, 2021.[5] Memory-Replay Knowledge Distillation, MDPI Sensors, 2021.[6] Revisit Label Smoothing Regularization with Knowledge Distillation, MDPI AS, 2021.[7] Acoustic scene clustering using joint optimization of deep embedding learning and clustering iteration, IEEE TMM, 2020.[8] Sound event detection via dilated convolutional recurrent neural networks, IEEE ICASSP, 2020.[9] Sound event detection with depthwise separable and dilated convolutions, IEEE IJCNN, 2020.[10] Acoustic event diarization in TV/movie audios using deep embedding and integer linear programming, Springer MTA,2019.[11] Mobile phone clustering from acquired speech recordings using deep representation and spectral clustering, IEEE TIFS, 2018.[12] Anomalous sound detection using deep audio representation and a BLSTM network for audio surveillance of roads, IEEE Access, 2018.[13] Using multi-stream hierarchical deep neural network to extract deep audio feature for acoustic events detection, Springer MTA, 2018.[14] Dictionary learning based on M-PCA-N for audio signal sparse representation, IET SP, 2018.[15] Frontal face generation from multiple pose-variant faces with CGAN in real-world surveillance scene, IEEE ICASSP, 2018.[16] Unsupervised classification of speaker roles in multi-participant conversational speech, Elsevier CSL, 2017.[17] Unsupervised detection of acoustic events using information bottleneck principle, Elsevier DSP, 2017.[18] Automatic windowing for highly dynamic industrial X-ray image based on short-term energy of gray histogram, Springer JNE, 2017.[19] Mobile phone clustering from acquired speech recordings using deep Gaussian supervector and spectral clustering, IEEE ICASSP, 2017.[20] Sparse representation based quasi-clean speech construction for speech quality assessment under complex environments, IET SP, 2017. 科研创新 [1] 基于说话人分割与聚类的多说话人语速估计方法, 发明专利.[2] 基于长时特征和短时特征的重叠语音与单人语音区分方法, 发明专利.[3] 一种会议音频中的精彩说话人发现方法, 发明专利.[4] 一种能识别婴儿哭声的婴儿监护器及婴儿哭声识别方法, 发明专利.[5] 一种基于说话人分割的会议主持人语音提取方法, 发明专利.[6] 辨识呼救声和异常脉搏的智能报警手环及其智能报警方法, 发明专利.[7] 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法, 发明专利.[8] 一种基于元音谱空间衰减率的病态说话人与正常说话人区分方法, 发明专利.[9] 一种基于数据增强的声场景辨识方法, 发明专利.[10] 基于音频特征空间分层描述的音频分类方法, 发明专利.[11] 一种基于深度学习的非常态语音区别方法, 发明专利.[12] 一种联合优化深层变换特征与聚类过程的声场景聚类方法, 发明专利.[13] 一种基于声音事件检测的独居老人家中活动估计方法, 发明专利. 教学活动主讲本科生课程：语音信号处理、数字电子技术；指导国家级大学生课外创新训练项目；指导本科生发表SCI论文和申请发明专利。多次获得学校教学优秀奖，多次被评为科技创新优秀指导老师。指导学生情况指导的研究生：在国际权威期刊及会议上发表论文；多次获得国家奖学金；获得百度、腾讯、华为、科大讯飞等知名企业的暑期实习机会；毕业就职于百度、腾讯、华为、科大讯飞、欢聚时代等知名企业。指导的硕士论文被评选为学校优秀学位论文。我的团队研究团队：通信与音视频处理。实验室：音频、语音与视觉处理（http://asvp.ee.scut.edu.cn/）。