CoDi-多模态 AI 大模型

1年前更新 213 0 0

CoDi 是一个新颖的生成模型,能够从任何组合的输入模态生成任何组合的输出模态

收录时间:
2023-08-01
CoDi-多模态 AI 大模型CoDi-多模态 AI 大模型
CoDi-多模态 AI 大模型

CoDi是什么?

CoDi (Composable Diffusion) 是一个新颖的生成模型,能够从任何组合的输入模态(如语言、图像、视频或音频)生成任何组合的输出模态。

更多 demo 体验:https://codi-gen.github.io/

与现有的生成 AI 系统不同,CoDi 可以并行生成多种模态,其输入不仅限于文本或图像等子集模态。尽管许多模态组合的训练数据集不存在,但我们提出在输入和输出空间中对模态进行对齐。这使 CoDi 能够自由地根据任何输入组合进行条件设置,并生成任何模态组,即使它们在训练数据中不存在。CoDi 采用了一种新颖的可组合生成策略,该策略涉及通过在扩散过程中建立对齐来构建共享的多模态空间,从而实现交织模态(如时间对齐的视频和音频)的同步生成。CoDi 高度定制化和灵活,实现了强大的联合模态生成质量,并与单模态合成的最新技术相媲美或者在同等水平。

CoDi 的模型架构使用了多阶段训练方案,使其能够仅对线性数量的任务进行训练,但对所有输入和输出模态的组合进行推理。

CoDi 的使用示例包括:

多输出联合生成:模型接受单个或多个提示(包括视频、图像、文本或音频),生成多个对齐的输出,如伴有声音的视频。

多条件生成:模型接受多个输入(包括视频、图像、文本或音频)生成输出。

单对单生成:模型接受单个提示(包括视频、图像、文本或音频)生成单个输出。

如何使用?

CoDi 的研究论文已经发布在 arXiv 上,论文标题为 “Any-to-Any Generation via Composable Diffusion”。

论文地址:http://arxiv.org/abs/2305.11846

GitHub代码:https://github.com/microsoft/i-Code/tree/main/i-Code-V3

演示视频:

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

数据统计

数据评估

CoDi-多模态 AI 大模型浏览人数已经达到213,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:CoDi-多模态 AI 大模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找CoDi-多模态 AI 大模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于CoDi-多模态 AI 大模型特别声明

本站AI工具中文导航站提供的CoDi-多模态 AI 大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI工具中文导航站实际控制,在2023年 8月 1日 上午12:28收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具中文导航站不承担任何责任。

相关导航

Awesome Domain LLM

Awesome Domain LLM

这段内容介绍了自从出现了大语言模型(LLM)如ChatGPT以后,研究和应用领域迎来了新的发展潮流,涌现出许多通用模型,包括LLaMA、ChatGLM、Baichuan、Qwen等。这些模型在不同领域中通过预训练和微调得到了应用,尤其在医疗和法律领域。项目的目标是收集和整理垂直领域的开源模型、数据集和评测基准,以促进大型语言模型在各个领域的应用。欢迎大家为项目贡献未收录的资源,推动大模型在各行各业的发展。

暂无评论

none
暂无评论...