发布日期:2024-10-07 10:38 点击次数:125
扎克伯格最近忙着在全寰宇「抢风头」bt工厂网址。
前不久,开启「二次创业」的他刚向咱们展示了十年磨一剑的最强 AR 眼镜 Meta Orion,尽管这仅仅一款押注将来的原型机器,却抢光了 Vision Pro 的风头。
而在昨晚,Meta 在视频生成模子赛说念再次大出锋头。
Meta 默示,全新发布的 Meta Movie Gen 是迄今为止首先进的「媒体基础模子(Media Foundation Models)」。
不外,先打个小心针,Meta 官方当今尚未给出明确的灵通时间表。
官方声称正在积极地与文娱行业的专科东说念主士和创作家进行疏导和配合,展望将在来岁某个时候将其整合到 Meta 我方的家具和劳动中。
通俗回首一下 Meta Movie Gen 的特色:
领有个性化视频生成、精准视频编订和音频生成等功能。复旧生成 1080P、16 秒、每秒 16 帧的高清长视频能够生成最长 45 秒的高质料和高保真音频输入通俗文本,即可已毕复杂的精准视频编订功能演示遵循优秀,但该家具展望来岁才会安妥向公众灵文告别「哑剧」,功能主打大而全
细分来说,Movie Gen 具有视频生成、个性化视频生成、精准视频编订和音频生成四大功能。
文生视频功能早已成为视频生成模子的标配,仅仅,Meta Movie Gen 能够凭据用户的需求生成不同长宽比的高清视频,这在业内尚属草创。
Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.
探花极品Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.
此外,Meta Movie Gen 提供了高档的视频编订功能,用户只需通过通俗的文本输入即可已毕复杂的视频编订任务。
从视频的视觉作风,到视频片断之间的过渡遵循,再到更精致的编订操作,这极少,该模子也给足了开脱。
在个性化视频生成方面,Meta Movie Gen 也前迈进了一大步。
用户不错通过上传我方的图片bt工厂网址,应用 Meta Movie Gen 生成既个性化但又保握东说念主物特征和行动的视频。
Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.
从孔明灯到透明彩色泡泡,一句话松弛替换视频吞并物体。
Text input: Transform the lantern into a bubble that soars into the air.
尽管本年持续已有不少视频模子接踵亮相,但大多只可生成「哑剧」,食之无味弃之可惜,Meta Movie Gen 也莫得「陈词谎话」。
Text input: A beautiful orchestral piece that evokes a sense of wonder.
用户不错通过提供视频文献或文本本体,让 Meta Movie Gen 凭据这些输入生成相对应的音频。(PS:提防滑板落地的配音)
况且,它不仅不错创建单个的声息遵循,还不错创建布景音乐,致使为总共这个词视频制作完满的配乐,从而极地面种植视频的举座质料和不雅众的不雅看体验。
看完演示 demo 的 Lex Fridman 纲兴目张地抒发了歌咏。
好多网友再次「拉踩」OpenAI 的期货 Sora,但更多静瞻念其变的网友依然首先期待测试体验阅历的灵通了。
Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。
Meta 画的大饼,值得期待
在推出 Meta Movie Gen 之时,Meta AI 贪图团队也同时公开了一份长达 92 页的手艺论文。
据先容,Meta 的 AI 贪图团队主要使用两个基础模子来已毕这些鄙俚的功能——Movie Gen Video 以及 Movie Gen Audio 模子。
其中,Movie Gen Video 是一个 30B 参数的基础模子,用于文本到视频的生成,能够生成高质料的高清视频,最长可达 16 秒。
模子预观测阶段使用了多数的图像和视频数据,能够交融视觉寰宇的各式成见,包括物体通顺、交互、几何、相机通顺和物理王法。为了提高视频生成的质料,模子还进行了监督微调(SFT),使用了一小部分全心挑选的高质料视频和文本标题。
通知骄横,后观测(Post-training)经过则是 Movie Gen Video 模子观测的攻击阶段,能够进一步提高视频生成的质料,尤其是针对图像和视频的个性化和编订功能。
值得一提的是,贪图团队也将 Movie Gen Video 模子与主流视频生成模子进行了对比。
由于 Sora 当今尚未灵通,贪图东说念主员只可使用其公修复布的视频和教导来进行相比。关于其他模子,如 Runway Gen3、LumaLabs 和 可灵 1.5,贪图东说念主员选用通过 API 接口来自行生成视频。
且由于 Sora 发布的视频有不同的辞别率和时长,贪图东说念主员对 Movie Gen Video 的视频进行了剪辑,以确保相比时视频具有一样的辞别率和时长。
完结骄横,Movie Gen Video 举座评估遵循上权臣优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有隐微的上风,与可灵 1.5 绝顶。
将来,Meta 还筹画公修复布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,以加快视频生成模子的贪图。
而 Movie Gen Audio 模子则是一个 13B 参数的模子,用于视频和文本到音频的生成,能够生成长达 45 秒的高质料和高保果然音频,包括声息遵循和音乐,并与视频同步。
该模子继承了基于 Flow Matching 的生成模子和扩散变换器(DiT)模子架构,并添加了颠倒的条款模块来提供限定。
致使,Meta 的贪图团队还引入了一种音频膨胀手艺,允许模子生成超出首先 45 秒扫尾的连贯音频,也等于说,岂论视频多长,模子王人能够生成匹配的音频。
更多具体信息接待稽查手艺论文 https://ai.meta.com/static-resource/movie-gen-research-paper
昨天,OpenAI Sora 负责东说念主 Tim Brooks 官宣下野,加盟 Google DeepMind,给出路不解的 Sora 技俩再次蒙上了一层黑暗。
而据彭博社报说念,Meta 副总裁 Connor Hayes 默示,当今 Meta Movie Gen 也莫得具体的家具筹画。Hayes 走漏了蔓延推出的攻击原因。
Meta Movie Gen 面前使用文本教导词生成一个视频往往需要恭候数十分钟,极大影响了用户的体验。
Meta 但愿进一步提高视频生成的遵循,以及已毕尽快在移动端上推出该视频劳动,以便能更好地讲理蚀本者的需求。
其实要是从家具时势上看,Meta Movie Gen 的功能设想主打一个大而全,并莫得像其他视频模子那样的「瘸一条腿」。最杰出的污点,酌定等于沾染了与 Sora 一样的「期货」气味。
理思很丰润,执行很骨感。
大约你会说,一如当下的 Sora 被国产大模子赶超,比及 Meta Movie Gen 推出之时,视频生成限度的竞争神志大约又会变换一番光景。
但至少当今来看,Meta 画的大饼足以让东说念主下咽。