必赢76net线路(中国)唯一官方网站

光华讲坛——认知启发的视觉-语言技术

2022年10月26日 11:13

光华讲坛——社会名流与企业家论坛第6250期

主题：认知启发的视觉-语言技术

主讲人：中国科学院信息工程研究所于静副研究员

主持人：必赢76net线路杨新副经理

时间：10月28日 10:00-11:30

地点：腾讯会议，会议ID：899-236-466

主办单位：必赢76net线路科研处

主讲人简介：

于静，中国科学院信息工程研究所副研究员，CCF YOCSEF学术委员会学术秘书（2022-2023），CCF多媒体技术专业委员会委员。于静致力于计算机视觉-自然语言处理相结合的跨模态智能领域。在TIP、TMM、PR等国际期刊和ICML、CVPR、AAAI, ACM MM、IJCAI等国际会议发表学术论文40余篇，亦担任TMM、PR、CVPR、ICCV、ECCV、AAAI、IJCAI等学术期刊和会议审稿人。主持和参与国家自然科学基金、国家重点研发计划项目、中科院战略性先导科技专项项目等各类国家级/省部级科研课题10余项。在中国科学院大学讲授《自然语言处理》课程，在B站讲授《科研与学术论文写作》课程（网址：https://space.bilibili.com/301285406）。个人主页：https://mmlab-iie.github.io/

主讲内容：

随着各行业多模态数据的快速增长和累积，如何跨越视觉、语言等不同模态信息实现对世界更加泛化的分析和推理，对于提升计算机的智能水平至关重要。因此，结合视觉与语言的跨模态智能技术成为近年来备受关注的研究领域，在多媒体智能创作、智慧教育、电商客服、AI辅助医疗等越来越多场景中得到应用。目前解决视觉-语言问题的主流深度学习方法主要依靠观察大量数据“归纳”出输入与输出的关联关系。人类的认知机制能否启发AI算法设计，让机器在一定程度上具备人的“认知”能力？本次报告针对视觉-语言跨模态领域面临的挑战，介绍基于认知科学启发，在跨模态概念理解、关系识别、知识积累等共性问题上的最新进展，及其在一系列视觉-语言任务中的应用。

报告提纲/目录：

1.跨模态理解的基本问题

2.认知启发的跨模态概念表征与理解

3.认知启发的跨模态关系组织与识别

4.认知启发的跨模态知识积累与应用

5.跨模态技术应用及展望

关闭打印

首页

首页