AG旗舰厅appOpenAI空降视频生成模型:一口气生成60s风格画质尺寸灵活定制 最前线
栏目:AG旗舰厅公司动态 发布时间:2024-02-16
 AG旗舰厅提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。  Sora生成视频(原视频为60s,文中截取20s,画质受gif大小限制有所压缩)。图源:OpenAI  提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草

  AG旗舰厅提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

  Sora生成视频(原视频为60s,文中截取20s,画质受gif大小限制有所压缩)。图源:OpenAI

  提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。

  提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

  在半年前,在保证生成画质的前提下时长仅仅是突破10秒,对于多数视频模型而言都是难以企及的高度。

  这是由于循环网络、生成对抗网络、Diffusion模型等主流视频建模范式,通常只能学习某一小类的视觉数据、较短的视频或者固定大小的视频。

  这意味着,此前主流范式下的视频生成模型对训练数据有较高的要求,需要将训练数据处理为具有标准大小、裁剪尺寸的视频。

  将Diffusion模型(可以将随机像素大致转换为图像)与Transformer神经网络(支持处理长数据序列)相结合

  比如对应大语言模型中将文本分割为最小的处理单位Token,Sora也通过压缩视频到较低维度AG旗舰厅app,将视觉数据分割为可分块处理的补丁(patch)。并且随着训练计算量的规模式(Scaling)提升,视频生成质量会显著提高。

  2022年,TikTok观看量Top 10的视频平均时长为44.2秒,最长的一个视频长达2分16秒;

  广告分析公司IntegralAdScience的统计数据显示,移动网络展示广告和移动应用的广告平均时长分别为15.6秒和20.2秒。

  这意味着,一旦文生视频模型突破了60s的时长瓶颈、画质达到商用级别,对于用户的生产和娱乐方式,都会产生巨大的影响。《马戏之王》导演Michael Gracey告诉:“电影制作者不再需要一个由 100 或 200 名艺术家组成的团队,在三年内制作他们的动画长片。这让我很兴奋。”

  由于Sora生成的视频质量远高于多数视频生成模型AG旗舰厅app,尤其现实风格让人真假难辨,不少专家也表达了对视频深度伪造(Deepfake)的担忧。政治竞选虚假信息识别组织True Media创始人、华盛顿大学教授Oren Etzioni在的采访中表示:“我非常害怕这种事情会影响一场势均力敌的选举AG旗舰厅app。”