首页

光华讲坛——社会名流与企业家论坛第6250期

主题:认知启发的视觉-语言技术

主讲人:中国科学院信息工程研究所 于静副研究员

主持人:必赢76net线路 杨新副经理

时间:10月28日 10:00-11:30

地点:腾讯会议,会议ID:899-236-466

主办单位:必赢76net线路 科研处

主讲人简介:

于静,中国科学院信息工程研究所副研究员,CCF YOCSEF学术委员会学术秘书(2022-2023),CCF多媒体技术专业委员会委员。于静致力于计算机视觉-自然语言处理相结合的跨模态智能领域。在TIP、TMM、PR等国际期刊和ICML、CVPR、AAAI, ACM MM、IJCAI等国际会议发表学术论文40余篇,亦担任TMM、PR、CVPR、ICCV、ECCV、AAAI、IJCAI等学术期刊和会议审稿人。主持和参与国家自然科学基金、国家重点研发计划项目、中科院战略性先导科技专项项目等各类国家级/省部级科研课题10余项。在中国科学院大学讲授《自然语言处理》课程,在B站讲授《科研与学术论文写作》课程(网址:https://space.bilibili.com/301285406)。个人主页:https://mmlab-iie.github.io/

主讲内容:

随着各行业多模态数据的快速增长和累积,如何跨越视觉、语言等不同模态信息实现对世界更加泛化的分析和推理,对于提升计算机的智能水平至关重要。因此,结合视觉与语言的跨模态智能技术成为近年来备受关注的研究领域,在多媒体智能创作、智慧教育、电商客服、AI辅助医疗等越来越多场景中得到应用。目前解决视觉-语言问题的主流深度学习方法主要依靠观察大量数据“归纳”出输入与输出的关联关系。人类的认知机制能否启发AI算法设计,让机器在一定程度上具备人的“认知”能力?本次报告针对视觉-语言跨模态领域面临的挑战,介绍基于认知科学启发,在跨模态概念理解、关系识别、知识积累等共性问题上的最新进展,及其在一系列视觉-语言任务中的应用。

报告提纲/目录:

1.跨模态理解的基本问题

2.认知启发的跨模态概念表征与理解

3.认知启发的跨模态关系组织与识别

4.认知启发的跨模态知识积累与应用

5.跨模态技术应用及展望