时 间: 2020年5月31日(星期日)14:00—18:00
地 点: (B站直播)链接
系列报告一: 面向复杂视觉任务的多模态深度学习
报告讲者:王亮 研究员(中国科学院自动化研究所)
报告题目:近些年,深度学习方法已经被大量用于解决各种视觉问题,并且在大多数基础任务上(例如目标识别、检测和分割)均取得90%以上甚至超过人类的精度。但是这些方法在高层语义理解或者跨模态交互等场景下的表现并不尽如人意,离现实应用还存在较大差距。这主要是由于复杂视觉任务所特有的标记数据量少、样本不均衡、视觉语义鸿沟等原因导致的。在报告中,我们将系统分析当前多模态场景下复杂视觉任务的挑战与机遇,并介绍我们团队在该方向上的最新研究工作,包括视觉描述、跨模态检索、指代表达等。
系列报告二: 视网膜启发的视觉信息表示与处理
报告讲者:田永鸿 教授(北京大学)
报告题目:感知是智能之源,智能的重要发展目标是实现从“耳聪目明”(感)到“融会贯通”(知)。如何让计算机能够有效表达和处理视感知信息是计算机视觉和人工智能的基本问题。在现有技术框架下,视觉信息通常被组织成一帧一帧的图像,而连续的图像序列构成一段视频,图像帧或视频即成为视觉信息表示与处理的基本单位。然而,随着图像视频数据量的急剧增长以及高速成像应用的不断涌现,传统基于图像帧的视觉信息表示与处理理论正面临巨大的技术挑战。众所周知,视觉感知的生物学原型是视网膜。因此,应借鉴生物视网膜的结构与机理,研究适合视频大数据分析处理与高速成像应用的视觉信息表示与处理理论及方法。沿着这一思路,本报告将结合国内外相关研究进展,从功能模拟和结构仿真两个角度来探讨生物视网膜启发的视觉信息表示与处理。
系列报告三: 开放复杂环境下的行人重识别研究
报告讲者:郑伟诗 教授(中山大学)
报告题目:过去十年来是行人重识别的大发展时代,许多方法被提出来了,并且最近多家科技公司不断刷新各种榜单(在类似Market的数据库上达到97%以上的匹配率),似乎给学界或工业界一个错觉,行人重识别这个问题已经解决了。然而,实际上行人重识别在业内还存在许多问题,不但在学术上,而且在工业实际应用中,并没有如刷数据库那般神奇。行人重识别仍然有许多悬而未决的严重影响重识别应用的核心问题,比如光照、衣服变换等。此外,目前大多数算法的性能非常依赖大规模的标注数据,如何应对大量弱标注或无标注数据下的行人重识别建模,目前仍然是一个迫切需要解决的问题。本交流将主要探讨和汇报在开放复杂环境下的行人重识别建模。
系列报告四: 视觉场景图—表示、生成与应用
报告讲者:王瑞平 研究员(中国科学院计算技术研究所)
报告题目:近年来面向视觉场景理解的认知任务探索成为热点,研究视角从关注局部的视觉实体(object-centric)转向关注全局的实体间关系(relationship-centric),如何建立纷繁视觉信息与其本质语义内涵之间的跨模态通路成为关键挑战。结构化的视觉场景图(scene graph)为连接底层的物体识别检测等感知任务与高层的语言描述问答等认知任务提供了桥梁。本课题组近几年围绕场景图的表示、生成与应用开展了系列研究,致力于建立“物体—>场景—>语言—>知识”的递进式场景理解统一框架。报告将介绍取得的一些具体进展,包括:结构化图推理驱动的物体检测、场景关系图的自动生成、复杂场景跨模态图文检索、以及场景图与知识图交互的组合推理式问答等工作。
系列报告五: 异质人脸图像合成与识别
报告讲者:王楠楠 教授(西安电子科技大学)
报告题目:异质人脸图像主要是指处在不同模态或形态的人脸图像,例如线条画、素描画像,近红外、热红外图像与可见光图像,低分辨与高分辨图像,人脸动画以及不同的人脸面部表情等,正面人脸图像与侧面人脸图像。异质人脸图像合成主要是指可见光图像与这些不同模态和形态图像之间的相互转换。异质人脸图像合成的出发点是因为现实中经常存在缺少某一种图像的情况,例如刑侦破案等公共安全领域,急需重建出高清晰的人脸图像。本报告将介绍现有的异质人脸图像合成方法中的典型方法,特别地,将以人脸素描画像和照片的合成为例,对异质人脸合成的关键原理进行阐述。报告内容涉及计算机视觉、机器学习以及图形学等相关方向。
欢迎广大师生届时参加!