Vision Encoder in Mllm

LLaVA-OneVision-2迈向下一代感知智能的视觉语言大模型

首个以「码流（Codec-Stream）」为视觉单元的多模态大模型 — 让视频不再只是被采样的帧，而是一条由比特率与运动残差共同驱动的连续证据流。8B 模型在 18 项视频任务、11 项空间推理任务、4 项跟踪任务上全面超越 Qwen3-VL-8B；在体育中考数据集上以 74.9 vs 30.1 ...

GitHub

开题报告.md

具身智能(Embodied AI)是人工智能从"被动感知"走向"主动交互"的关键方向。传统的视觉-语言模型(VLM)如CLIP、BLIP等擅长图像理解与问答，但它们停留在"看和说"的层面，无法在物理环境中执行动作。而具身智能Agent需要在三维环境中，综合视觉观测、语言指令和自身 ...

电子工程专辑

【光电智造】聊聊：什么是多模态？有什么价值以及难题

今日光电有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光引未来...欢迎来到今日光电！如果把LLM比做关在笼子里的AI，那么它和世界交互的方式就是通过“递文字纸条”。文字是人类对世界的表示，存在着 ...

GitHub

LAMDA-NeSy/Lab-RoadMap

课题组负责人：郭兰哲(南京大学智能科学与技术学院，准聘助理教授，博士生导师) 研究方向：Neuro-Symbolic Learning、LLM/MLLM Reasoning & Planning、Agent in Digital and Physical World、AI for Open Problems 招生对象：直博生、硕士生、科研实习生（支持 Remote）联系方式：欢迎感 ...

新浪网

X-SAM：统一图像分割多模态大模型，20+图像分割数据集上均达SoTA

本研究由中山大学、鹏城实验室、美团联合完成，第一作者王豪为中山大学博士研究生，主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。背景与动机 Segment Anything Model (SAM) 作为基础分割 ...

51CTO

小红书 NoteLLM-2：用于推荐的多模态表征

本文中我们继续介绍小红书用于多模态场景笔记推荐的 NoteLLM-2。对应的论文为：[2405.16789] NoteLLM-2: Multimodal Large Representation Models for Recommendation [1] 二、摘要 LLM 在文本理解方面展现了卓越能力，现有研究也已探讨了其在文本 Embedding 任务中的应用，然而，利用 LLM ...

51CTO

多模态视觉-语言大模型的架构演进

本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.04，持续 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果