个人简介


余宙,博士生/硕士生导师,国家优青,杭州电子科技大学 计算机学院副院长,浙江省计算机学会副秘书长,中国计算机学会多媒体专委会委员,浙江省计算学会数字媒体专委会委员。分别于2010年和2015年在浙江大学获得数字媒体技术专业学士学位和计算机科学与技术专业博士学位,并于2015年至2016年期间就职于阿里巴巴集团搜索事业部任资深算法工程师。

主要研究兴趣包括使用机器学习和深度学习算法对计算机视觉和自然语言统一建模表达,涉及基于多模态学习、视觉问答、视觉定位、视觉描述、跨媒体检索等。现已发表高水平国际期刊会议论文40余篇,其中在CCF A类会议和IEEE/ACM Transactions上发表论文近20余篇,引用次数4000余次,主持浙江省自然科学基金杰青项目、国家自然科学基金面上、青年项目、国家重点研发子课题项目,以课题骨干参与科技创新2030重大项目、国家自然科学基金重点、面上项目等;担任IEEE TPAMI、TIP, TMM, TCSVT等国际权威期刊和AAAI, IJCAI, ACM MM等国际顶级会议的受邀审稿人。因在相关领域的突出贡献,获2020年度浙江省自然科学一等奖(排名第二)和2021年度ACM杭州新星奖,入选第五届中国科协“青年人才托举工程”和首届浙江省高校领军人才培养计划(青年优秀人才)。

代表性工作


May. 2024
Zhenwei Shao, Zhou Yu, Jun Yu, Xuecheng Ouyang, Lihao Zheng, Zhenbiao Gai, Mingyang Wang, Jiajun Ding Imp: Highly Capable Large Multimodal Models for Mobile Devices, ,
可在移动端运行的轻量化多模态大模型,性能超过经典的LLaVa的7B和13B模型。
Paper  Project 
May. 2023
Zhou Yu, Lixiang Zheng, Zhou Zhao, Fei Wu, Jianping Fan, Kui Ren, Jun Yu ANetQA: A large-scale benchmark for fine-grained compositional reasoning over untrimmed videos, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ,
针对未修剪视频的细粒度组合推理构建的最大规模基准数据集,推动视频语义理解研究。
Paper  Project 
Mar. 2023
Zhenwei Shao, Zhou Yu, Meng Wang, Jun Yu Prompting large language models with answer heuristics for knowledge-based visual question answering, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , Chengdu, China, 2021.
提出基于答案启发式提示大语言模型的方法,显著提升知识驱动型视觉问答任务的推理能力。
Paper  Project 
Mar. 2023
Zhou Yu, Zitian Jin, Jun Yu, Mingliang Xu, Hongbo Wang, Jianping Fan Bilaterally slimmable transformer for elastic and efficient visual question answering, IEEE Transactions on Multimedia(SCI 一区期刊) ,
提出双边可动态调整Transformer架构,通过弹性缩放模型宽度与深度,提升视觉问答任务效率与资源利用率
Paper  Project 
Oct. 2021
Yuhao Cui, Zhou Yu, Chunqi Wang, Zhongzhou Zhao, Ji Zhang, Meng Wang, Jun Yu, "ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge", ACM International Conference on Multimedia (ACM MM) , Chengdu, China, 2021.
首个同时引入模态内和模态间知识增强的多模态预训练方法。
Paper  Project 
Oct. 2020
Zhou Yu, Yuhao Cui, Jun Yu, Dacheng Tao, Qi Tian, "Deep Multimodal Neural Architecture Search", ACM International Conference on Multimedia (ACM MM) , Virtual, 2020.
首个面向通用多模态学习的深度神经架构搜索框架。
Paper  Project 
Jun. 2019
Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, Tian Qi, "Deep Modular Co-Attention Networks for Visual Question Answering", IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , Long Beach, USA, 2019.
获得 VQA Challenge 2019 世界冠军的解决方案。
Paper  Project  Slides 
Dec. 2018
Zhou Yu, Jun Yu, Chenchao Xiang, Jianping Fan, Dacheng Tao, "Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering", IEEE Transactions on Neural Networks and Learning Systems (TNNLS) , 29(12): 5947-5959, 2018.
获得 VQA Challenge 2017 VQA Challenge 2018 世界亚军的解决方案。
Paper  Project  Slides 2017  Slides 2018 
Jul. 2018
Zhou Yu, Jun Yu, Chenchao Xiang, Zhou Zhao, Qi Tian, Dacheng Tao, "Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding", International Joint Conference on Artificial Intelligence (IJCAI) , Stockholm, Sweden, 2018.
一种视觉定位任务领域的简单有效的基线方法。
Paper  Project 

项目

视觉问答
国家自然科学基金优青项目,2025-2027,主持。
可信跨媒体分析推理
浙江省自然科学基金 杰青基金,No. LR22F020001,2022年1月 - 2024年12月,主持。
外部“数据-知识”联合增强的视觉问答方法研究
国家自然科学基金 面上基金,No. 62072147,2021年1月 - 2024年12月,主持。
基于端到端统一建模的图像内容问答算法研究
国家自然科学基金 青年基金,No. 61702143,2018年1月 - 2020年12月,主持。