业界首个！豆包新模子搅拌AI视觉

发布日期：2025-02-11 10:56 点击次数：64

2月10日，A股视觉瓦解观点股午后大幅走强，创业板星宸科技直线拉升涨停，全志科技、富瀚微、虹软科技等纷繁大幅冲高。音问面上，豆包发布视频生成实验模子“VideoWorld”。据先容，不同于Sora、DALL-E、Midjourney等主流多模态模子，VideoWorld在业界初次终了无需依赖言语模子，仅通过“视觉信息”即可瓦解寰球，也即是说，VideoWorld可通过浏览视频数据，让机器掌合手推理、筹谋和有推敲等复杂才气。团队实验发现，仅300M参数目下，VideoWorld已获得可不雅的模...

K图 301536_0

K图 300458_0

K图 300613_0

K图 688088_0

　　2月10日，A股视觉瓦解观点股午后大幅走强，创业板星宸科技直线拉升涨停，全志科技、富瀚微、虹软科技等纷繁大幅冲高。

　　音问面上，豆包发布视频生成实验模子“VideoWorld”。据先容，不同于Sora、DALL-E、Midjourney等主流多模态模子，VideoWorld在业界初次终了无需依赖言语模子，仅通过“视觉信息”即可瓦解寰球，也即是说，VideoWorld可通过浏览视频数据，让机器掌合手推理、筹谋和有推敲等复杂才气。团队实验发现，仅300M参数目下，VideoWorld已获得可不雅的模子阐扬。

　　咫尺，该神气代码与模子已开源。

　　现存模子大多依赖言语或标签数据学习常识，很少触及纯视觉信号的学习。VideoWorld聘用去掉言语模子，终昭彰长入履行意会和推理任务。

　　如何作念到的？

　　豆包大模子团队称，VideoWorld基于一种潜在动态模子（Latent Dynamics Model，LDM），可高效压缩视频帧间的变化信息，在保留丰富视觉信息的同期，压缩了要道有推敲和作为关联的视觉变化，权贵晋升常识学习着力和恶果。

　　在不依赖任何强化学习搜索或奖励函数机制前提下，杠杆比例VideoWorld达到了专科5段9x9围棋水平，并大致在多种环境中，履行机器东说念主任务。

　　但该模子并不无缺，其在真的寰球环境中的哄骗，仍濒临着高质料视频生成和多环境泛化等挑战。这小数最直不雅体当今，视频中存在深刻冗余信息，会大大影响模子的学习着力，使得视频序列的常识挖掘着力权贵过期于文本形势，不利于模子对复杂常识的快速学习。

　　大模子的视觉意会才气一直是AI前沿推敲标的之一。对东说念主类而言，与言语比较，“用眼睛看”是门槛更低的瓦解时势。正如李飞飞证明9年前TED演讲中提到“幼儿不错不依靠言语意会真的寰球”。

　　AI视觉学习，粗心来说，需要大模子意会物品/空间/场景的举座含义，并证明识别试验进行复杂的逻辑野心，证明图像信息更密致地表述并创作。

　　AI视觉学习才气晋升，有望催发更多的AI哄骗。长城证券此前发布研报称，国内AI大模子多模态才气正赓续晋升，如快手可灵AI大模子、字节豆包AI大模子等视频生成的恶果正在赓续晋升，包括精确语义意会、一致性多镜头生成、动态运镜等。受益于底层技艺才气的升级，国内AI哄骗赓续迭代，token调用量赓续增长，AI哄骗有望从中受益。

让建站和SEO变得简单

业界首个！豆包新模子搅拌AI视觉

相关资讯

热点资讯