OpenAI表现最差
OpenAI Sora 正式发布仅仅 8 天后,最强挑战者就已经出现了。
当地时间 12 月 16 日,谷歌DeepMind在人工智能领域再次取得重大进展,推出了两款新产品:Veo 2视频生成模型和Imagen 3图像生成模型,以及一个名为Whisk的图像生成实验工具。
这些技术的发展不仅提升了分辨率和图像质量,更重要的是,它们在理解和模拟真实世界的物理规律以及人类动作和表情的细微差别上展现了巨大的潜力。
谷歌版Sora升级4K高清
Veo 2视频生成模型
Veo 2是谷歌DeepMind推出的一款先进的视频生成模型,它能够根据文本或图像提示生成逼真的高质量视频剪辑。
Veo 2的主要亮点包括:高分辨率视频制作:Veo 2支持制作高达4K分辨率的视频,显著提升了视频的细节和清晰度。这一指标从根本上突破了目前市面上主流视频生成模型的限制。
相机控制理解:Veo 2能够理解并执行复杂的相机控制指令,如广角镜头、POV和无人机镜头等,增强了视频的视觉效果。用户可以在提示词中使用专业的摄影术语,比如指定“18mm 广角镜头”“低角度跟踪镜头”或“浅景深特写”等,模型都能准确理解并实现相应的视觉效果。
物理现象和表情模拟:Veo 2在模拟现实世界的物理现象和人类表情方面取得了突破,减少了AI视频生成中常见的错误。它能够更真实地重现物理规律和人类表情的微妙变化,减少了以往AI视频生成中常见的“错误生成”问题,例如多余的手指或意外物体的出现。
不过,DeepMind副总裁伊莱·柯林斯(Eli Collins)坦言,该模型在长时间保持人物动作连贯性和复杂动作生成方面还有待改进。
能够理解有关镜头控制的Prompt
安全性和水印技术:Veo 2在每个输出视频中嵌入了不可见的SynthID水印,帮助识别内容的AI生成属性,减少错误信息和错误归因的机会。这种对安全性和负责任AI开发的承诺,确保了技术的健康发展和应用。
Imagen 3图像生成模型
Imagen 3是谷歌DeepMind对图像生成模型的升级,它在艺术风格适应性和图像品质方面取得了显著提升:
多样化艺术风格:Imagen 3能够生成更多样化的艺术风格,从写实主义到印象派,从抽象艺术到动漫风格,准确捕捉并重现不同流派的艺术特征。此次升级使得Imagen 3在遵循提示的准确性和图像质量上都有了显著提升。
提示:背景有霓虹绿色灯光、浅景深的亚洲女性肖像
提示:以高预算动画电影风格呈现,画面充满生动、绘画般的质感,展现出广阔的星际景观,紫色、蓝色与金色的发光星云交织辉映。主角是一名身披星辰图案飘逸斗篷的小女孩,伫立在一座晶莹剔透的悬崖边缘。悬崖下,熔化的星尘之河在银河中蜿蜒流淌,金色光芒动态闪烁。背景中,高耸的星座以神话生物的形态悬浮,轮廓由发光的点状线条勾勒而成。流星划破广袤的天空,为画面增添了动感与璀璨的光辉。镜头角度略微升高,既捕捉到了浩瀚银河的壮丽,也展现出主角旅程的孤独与神秘感
图像品质提升:新Imagen 3在亮度表现、构图准确性以及细节丰富度上都有明显提升,能够更精确地将文字描述转化为图像。它能够以更高的精度渲染更多样化的艺术风格,生成更明亮、构图更协调的视觉作品。
全球推出:Imagen 3将通过Google Labs的ImageFX在全球超过100个国家推出,用户可以访问ImageFX开始体验。
Veo 2和Imagen 3的潜力正在逐步显现。目前YouTube创作者们已经开始将其用于短视频背景的制作,企业用户则在Vertex AI平台上将其整合到创意工作流程中。
Whisk图像生成实验工具
Whisk是谷歌实验室推出的最新实验项目,它允许用户输入或创建图像,以表达他们心中的主题、场景和风格:
图像组合与重新混合:用户可以将图像组合在一起,并重新混合,创造出独特的数字化产品,如数字毛绒玩具、珐琅别针或贴纸等。Whisk结合了Imagen 3的图像生成能力和Gemini的视觉理解系统,为用户提供了一种全新的创作方式。
技术整合:Whisk工具结合了Imagen 3的图像生成能力和Gemini的视觉理解系统,Gemini模型会自动为用户的图像编写详细的描述,然后将这些描述提供给Imagen 3,实现图像元素的重组和创新。
在性能评测方面,Veo 2展现出了领先优势。在Meta发布的基准测试数据集MovieGenBench上,参与者观看了1003个提示及其对应的视频。
结果显示,Veo 2在整体用户偏好度和指令遵循准确性方面均位居榜首。所有比较均在720p分辨率下进行,其中Veo的视频样本长度为8秒,VideoGen的为10秒,其他模型的为5秒。
评分者观看了所有视频的完整长度。在这次评测中,Veo 2击败了参与测试的其他四个视频生成模型,包括OpenAI Sora Turbo、Meta Movie Gen、可灵和MiniMax。
简而言之,反而是OpenAI的 Sora 是几款主流的视频生成模型中相对表现最差的,可灵是谷歌最大的竞争对手,在总体偏好和指令遵循偏好两个指标上,如果把平手和偏好指标数据加起来,可灵是几款视频模型中唯一相对Veo超过50%的偏好选择的模型。
[ad_1]
[ad_2]