来源: 网络 ,如有侵权请联系删除。如果您觉得对你有帮助的话,记得关注我们,我们会出更好的内容。
12日讯,阿里达摩院的研究人员提出了Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音/视频描述,写作,问答等。目前论文,代码,交互demo都已开放。另外,在Video-LLaMA的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更好。
(相关资料图)
论文链接:
代码地址:https://github.com/DAMO-NLP-SG/Video-LLaMA
Demo 地址:
Modelscope: https://modelscope.cn/studios/damo/video-llama/summary
Huggingface: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
样例输入文件地址:
https://github.com/DAMO-NLP-SG/Video-LLaMA/tree/main/examples
T HE EN D
温馨提醒&广告
郑重声明: 本文绝非小编编写,版权归原作者所有,转载文章仅为传播更多信息之目的,如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容!
Copyright 2015-2022 亚太知识产权网 版权所有 备案号:沪ICP备2020036824号-11 联系邮箱: 562 66 29@qq.com