首个以「码流(Codec-Stream)」为视觉单元的多模态大模型 — 让视频不再只是被采样的帧,而是一条由比特率与运动残差共同驱动的连续证据流。8B 模型在 18 项视频任务、11 项空间推理任务、4 项跟踪任务上全面超越 Qwen3-VL-8B;在体育中考数据集 上以 74.9 vs 30.1 ...
具身智能(Embodied AI)是人工智能从"被动感知"走向"主动交互"的关键方向。传统的视觉-语言模型(VLM)如CLIP、BLIP等擅长图像理解与问答,但它们停留在"看和说"的层面,无法在物理环境中执行动作。而具身智能Agent需要在三维环境中,综合视觉观测、语言指令和自身 ...
今日光电 有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电! 如果把LLM比做关在笼子里的AI,那么它和世界交互的方式就是通过“递文字纸条”。文字是人类对世界的表示,存在着 ...
课题组负责人:郭兰哲(南京大学智能科学与技术学院,准聘助理教授,博士生导师) 研究方向:Neuro-Symbolic Learning、LLM/MLLM Reasoning & Planning、Agent in Digital and Physical World、AI for Open Problems 招生对象:直博生、硕士生、科研实习生(支持 Remote) 联系方式:欢迎感 ...
本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。 背景与动机 Segment Anything Model (SAM) 作为基础分割 ...
本文中我们继续介绍小红书用于多模态场景笔记推荐的 NoteLLM-2。 对应的论文为:[2405.16789] NoteLLM-2: Multimodal Large Representation Models for Recommendation [1] 二、摘要 LLM 在文本理解方面展现了卓越能力,现有研究也已探讨了其在文本 Embedding 任务中的应用,然而,利用 LLM ...
本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.04,持续 ...