计算机视觉感知与理解前沿技术与应用

作者:审核:吴征天时间:2026-04-24点击数:

报告日期:2026-4-26 时间:13:30-17:20

地点:苏州科技大学电子与信息工程学院A108报告厅

主讲人:周全、姚睿、刘婷、魏李娜、徐明珠、徐行



特邀讲者:   教授南京邮电大学

演讲题目:高精度、高速度、高鲁棒性的图像语义理解


特邀讲者:    教授中国矿业大学

演讲题目:多模态视频鲁棒感知与解析


特邀讲者:    教授西北工业大学

演讲题目:基础模型驱动的语义分割


特邀讲者:魏李娜 教授浙大城市学院

演讲题目:从视觉到触觉:多模态持续学习的研究进展与展望


特邀讲者:徐明珠 助理研究员山东大学

演讲题目:从显著性感知到语义认知:视觉目标分割的发展与挑战


特邀讲者:   教授同济大学

演讲题目:第一视角多模态视频理解


特邀讲者:  

徐行,现任同济大学计算机科学与技术学院教授,青年百人计划A岗,博士生导师,国家高层次青年人才。主要研究方向为多模态信息感知与理解、跨媒体智能分析、多模态大模型应用。已发表人工智能、多媒体、计算机视觉相关领域的中科院JCR1区/CCF A类论文80余篇,ESI高被引/热点论文10余篇,授权国内外发明专利30余项。获得2025年教育部科学研究优秀成果奖自然科学奖一等奖,2025年中国电子学会自然科学一等奖,2022年吴文俊人工智能自然科学一等奖、国际多媒体大会ACM Multimedia (CCF A) 2017最佳论文奖,多媒体顶级期刊IEEE Transactions on Multimedia 2020最佳论文奖,人工智能顶级期刊IEEE Transactions on Fuzzy Systems (中科院JCR 1区) 2024杰出论文奖,国际多媒体展览会IEEE International Conference on Multimedia & Expo(CCF B)2017最佳会议论文铂金奖和2022最佳学生论文奖等科技成果及国际学术奖励。入选第十四批四川省学术和技术带头人及后备人选。主持包括国自然青年科学基金(B类、C类)及面上项目、四川省科技厅重大专项,并参与科技部、国自然及省部级科研项目20余项。

报告摘要:随着具身智能、混合现实以及机器人技术的快速发展,针对由摄像头、麦克风、陀螺仪等多源感知设备共同形成的第一视角视频数据的理解需求日益凸显。然而,现有视频理解技术多用于互联网第三视角视频,难以有效应对第一视角视频数据存在的模态类型多样、场景变化频繁、事件语义复杂等挑战。本报告围绕视频理解的感知-表征-推理三个核心要素,介绍课题组近期基于多感融合和表征泛化的多模态第一视角视频理解研究成果,以及在动作识别,视频内容分析、大模型推理增强具身智能场景的应用。



特邀讲者:  

周全,IEE Senior Member,CCF/CSIG杰出会员,南京邮电大学教授、博士生导师,日本九州工业大学客座教授,美国天普大学客座教授,东南大学兼职教授,江苏省自动化学会模式识别专业委员会常务委员。先后入选国家自然科学基金青年基金项日、中国博士后特别资助计划、江苏省“青蓝工程”青年骨干教师、江苏省科技副总、江苏省 333高层次人才。先后承担国家自然科学基金、江苏省自然科学基金、华为基础科技专项等科技项目30 余项。在IEEE TIP/TMI/TMM/TNNLS/TITS等高水平期刊发表论文100余篇,其中ESI高被引论文14篇,ESI热点论文5篇。于2024年获得IEEE ICIP最具影响力论文奖,2024年、2022年和2007年分别获IEEE/SPIE ISAIR最佳展示论文奖、会议突出贡献奖和最佳学生论文奖,指导研究生获得江苏省人工智能学会优秀硕士论文提名奖。授权国家发明专利10余项。参与制定《计算机视觉》国家级标准1项。担任国际SCI期刊Pattern Recognition、Journal of the Franklin Institute、Computers & Electrical Engineering副编辑,以及IEEE Transactions on Fuzzy Systems、IEEE Transactions on Multimedia、Visual Intelligence等SCI期刊客座编辑。担任 IEEE ICME2019-2026,PRCV2022-2026,IEEE/SPIE ISAIR2019-2026等国际会议主席或论坛主席。研究领域包括:人工智能、深度学习、计算机视觉、视觉语言大模型、模式识别、机器学习等。

报告摘要:图像语义理解包含物体识别、检测和分割等多重任务,在自动驾驶、工业控制、卫星遥感以及医疗诊断等诸多领域有广阔的应用前景。其研究范式与技术演进在经历过以提升识别精度为核心的全精度模型、以降低算力开销为目标的轻量化模型之后,正逐步向噪声干扰的复杂真实开放环境发展。本报告先大致汇报图像语义理解领域的发展历程以及各个时期面临的挑战和研究难点,然后介绍实验室在该领域的一些初步探索,最后展望了该领域在未来可能的研究方向。



特邀讲者:  

姚睿,中国矿业大学教授,博士生导师,江苏省"六大人才高峰"高层次人才。长期从事人工智能、计算机视觉、模式识别等教学和科研工作,澳大利亚阿德莱德大学博士联合培养、博士后。相关研究成果发表在CVPR/ICCV/ECCV/AAAI和IJCV/TIP/TMM/TGRS/TCSVT等知名国际会议和国际权威刊物共100余篇,授权国内外发明专利20余项。先后主持国家自然科学基金面上项目、青年项目、江苏省自然科学基金项目、中国博士后科学基金、企业课题多项,主持省教学改革项目1项。获教育部高等学校科研二等奖1项、中国煤炭工业协会科学技术奖二等奖2项、江苏省高等学校科研二等奖1项、江苏省高等教育学会科研优秀成果奖一等奖1项。指导研究生获江苏省优秀学术硕士学位论文奖。担任中国体视学会理事、CCF杰出会员、CCF计算机视觉专委会会员、中国图象图形学会成像探测与感知专委会委员、江苏省人工智能学会智能系统与应用专委会秘书长等,担任ICLR, ICML, CVPR, ICCV, ECCV, AAAI等顶级国际会议审稿人。

报告摘要:随着智能安防、自动驾驶与智慧城市的发展,视频数据已成为关键感知来源,推动视频理解由静态分析向动态复杂场景演进。然而,遮挡、光照变化、弱纹理、小目标及分布偏移等问题,使单一模态方法在稳定性与泛化能力上面临显著挑战,多模态感知因此成为提升性能与可靠性的关键路径。本报告围绕视频感知与解析,聚焦视频跟踪与阴影检测任务,系统探讨多模态条件下模型适应性、鲁棒性与可解释性的提升方法。针对RGB-T、高光谱与点云等多源信息带来的融合困难、特征不一致及环境不确定性问题,同时考虑对抗扰动与分布偏移等实际部署挑战,构建了涵盖多模态适应性、鲁棒性与可解释性的统一研究框架。该框架旨在提升复杂场景中的视频感知性能与系统可信度,为安全可靠的多模态视频理解提供方法支撑。



特邀讲者:  

刘婷,西北工业大学长聘副教授,2023年入选“第八届未来女科学家计划”。2020年获北京交通大学工学博士学位,于2019至2020年公派至新加坡国立大学进行联合博士培养。研究方向为多模态信息处理、2D/3D语义分割等。在国际知名会议期刊包括CVPR、IEEE TIP、AAAI、ACM Multimedia等发表学术论文20余篇。主持国家自然科学基金、博士后站前特别资助、博士后面上基金等多项科研项目。2022年荣获北京图象图形学会BSIG优秀博士学位论文,并获北京市优秀毕业生。获得过国际竞赛CVPR 2018 人体解析竞赛三项国际冠军,2017第一届航天星图杯”高分软件挑战大赛一等奖 ,2015全国特定音视频检索识别挑战赛视频拷贝检测全国第二。

报告摘要:随着CLIP、SAM等基础模型的发展,语义分割在零样本与开放场景下取得了显著进展。然而,在实际应用中,基础模型在精细语义对齐与高效三维表示方面仍面临关键挑战:一方面,在二维场景中,文本与图像区域之间的对齐仍不够精确,尤其在复杂空间关系下容易产生歧义;另一方面,当语义信息从二维扩展到三维时,现有方法往往依赖高维特征的密集建模,带来较高的存储与计算开销。围绕上述问题,本报告介绍我们在基础模型驱动的语义分割方向上的两项工作:在二维场景中,我们针对文本指代分割(Referring Image Segmentation, RIS)中的语义对齐问题,提出全局-局部融合的特征表示与空间引导机制,有效提升跨模态对齐能力;在三维场景中,我们基于3D Gaussian Splatting(3DGS),提出解耦式语义场建模方法,并结合层次化压缩策略,实现高效的三维语义表示与分割。



特邀讲者:魏李娜

魏李娜,2019年博士毕业于浙江大学,浙大城市学院计算机与计算科学学院副教授,硕导。主要从事人工智能、计算机视觉、模式识别、多媒体分析等相关领域的研究。先后主持国家自然科学基金面上项目、青年项目、浙江省自然科学基金探索一般项目、科技部 2030-新一代人工智能重大项目子课题、江苏省自然科学基金青年项目等,入选浙江省科协青年人才托举项目(2025-2027)、杭州市级人才等。近年来发表高水平论文多篇,其中包括 IJCAI、AAAI、CVPR、TIP、TNNLS 等国际顶级会议和期刊,目前担任IEEE Transactions on Multimedia、IEEE Transactions on Cybernetics、Pattern Recognition Letters、自动化学报等多个计算机视觉、模式识别领域期刊、会议审稿人。担任中国计算机学会多媒体委员会执行委员、浙江省科协会员、中国人工智能学会委员、中国图象图形学会委员等。

报告摘要:在具身智能与人机交互技术快速演进的背景下,视觉-触觉融合的多模态感知已成为智能系统精准认知真实环境的核心支撑。然而,面向开放世界应用时,数据的动态增量特性给模型带来了三大严峻挑战:严重的灾难性遗忘、多模态少样本导致的新旧类分布失衡,以及传统刚性增量设计难以适配复杂非标准场景(如质数类别)。本次报告将聚焦上述多模态类增量学习的痛点,分享实现视觉-触觉信息与增量学习深度耦合的最新研究成果。



特邀讲者:徐明珠

徐明珠,山东大学软件学院,助理研究员, 硕士生导师,荣获“ACM 济南分会新星奖”、“华为优秀技术合作成果奖”,入选“山东大学青年学者未来计划”。 本、硕、博均毕业于哈尔滨工业大学。 长期从事多媒体智能信息处理研究,聚焦于多源视觉显著性目标分割、跨模态图像指代表达式分割等任务,形成了“多源视觉显著性分割-跨模态语义理解-图像指代表达式分割”的系统性研究方向。作为项目负责人,主持国家自然科学基金面上项目、青年项目、山东省自然科学基金青年项目、山东省重点研发计划(重大创新工程)子课题 2 项、华为 MindSpore学术奖励基金等多项课题;并作为项目骨干参与国家级、省部级纵向课题及企业横向项目 10 余项。 累计发表高水平论文 30 余篇, 担任多个 CSIG/CAA 专委会委员, IEEE TPAMI、 CVPR 等 20 本国际顶级期刊/会议审稿人或客座编辑。

报告摘要:计算机视觉正由低层视觉感知逐步迈向高层语义认知,视觉目标分割也呈现新的发展趋势。早期显著性目标检测主要利用局部对比与全局上下文实现目标感知;随后,指代表达式分割引入自然语言信息,使模型能够依据文本描述完成目标定位与像素级分割,推动任务由“发现目标”向“理解目标”演进。面对真实环境中的语义歧义、复杂关系与动态变化,传统方法在跨模态对齐和泛化能力方面仍存在明显不足。尤其在开放场景下,模糊指代、未知类别、多粒度分割需求等进一步提升了任务难度,使模型不仅需要精准感知目标区域,还需要理解语言背后的语义意图与上下文关系。本报告将结合前期研究,梳理视觉目标分割的发展脉络,并重点讨论开放场景指代表达式分割面临的核心挑战及未来研究方向。










Copyright © 苏州科技大学 ⋅ 电子与信息工程学院  版权所有

地址: 江苏省苏州市虎丘区学府路99号   邮编: 215009   电话: 0512-68098063   传真: 0512-68098063