人工智能视频生成器会梦见圣佩德罗吗?麦当娜是人工智能下一波浪潮的早期采用者之一

2025-05-19 06:38来源:本站

  

  每当麦当娜在巡回演唱会上演唱上世纪80年代的热门歌曲《美丽岛》(La Isla Bonita)时,她身后巨大的舞台屏幕上就会播放着旋转的、夕阳色的云的动态图像。

  为了获得这种空灵的外观,这位流行传奇人物采用了一种仍然未知的生成人工智能分支——文本到视频的工具。输入一些单词,比如“超现实的云日落”或“黎明时分丛林中的瀑布”,就能制作出即时视频。

  跟随人工智能聊天机器人和静态图像生成器的脚步,一些人工智能视频爱好者表示,这项新兴技术有朝一日可能会颠覆娱乐业,使你能够选择自己的电影,并根据自己的故事情节和结局进行定制。但要做到这一点还有很长的路要走,而且在这条路上会有很多道德陷阱。

  对于麦当娜这样的早期采用者来说,这更像是一次实验,她长期以来一直在推动艺术的界限。她取消了早期版本的La Isla Bonita音乐会视觉效果,该版本使用更传统的计算机图形来唤起热带气氛。

  “我们尝试了CGI。麦当娜庆祝之旅的内容总监萨沙·卡苏哈说:“这看起来很乏味,俗气,她不喜欢。”麦当娜的庆祝之旅将持续到4月底。“然后我们决定尝试人工智能。”

  chatgpt制造商OpenAI最近展示了一款尚未公开的新工具Sora,让人们看到了复杂的文本转视频技术可能是什么样子。麦当娜的团队尝试了纽约初创公司Runway的另一款产品。去年3月,Runway发布了首个公开的文本转视频模式,帮助开创了这项技术。该公司在6月份发布了更先进的“第二代”版本。

  Runway首席执行官Cristóbal巴伦苏埃拉表示,虽然有些人认为这些工具是“一种神奇的设备,你输入一个单词,它就会以某种方式变出你脑海中所想的东西”,但最有效的方法是创意专业人士寻求升级他们已经使用了几十年的数字编辑软件。

  他说Runway还不能制作一部完整的纪录片。但它可以帮助填补一些背景视频,或b-roll -辅助镜头和场景,帮助讲述故事。

  巴伦苏埃拉说:“这可能为你节省了一周的工作时间。”“许多用例的共同点是,人们把它作为一种增强或加速他们以前可以完成的事情的方式。”

  Runway的目标客户是“大型流媒体公司、制作公司、后期制作公司、视觉效果公司、营销团队、广告公司”。很多人以制作内容为生,”巴伦苏埃拉说。

  危险在等待。如果没有有效的保障措施,人工智能视频生成器可能会以令人信服的“深度伪造”视频威胁民主国家,或者——就像人工智能图像生成器已经出现的情况一样——在互联网上充斥着虚假的色情场景,这些场景描绘的是人脸可识别的真人。在监管机构的压力下,大型科技公司已承诺为人工智能生成的输出添加水印,以帮助识别真伪。

  关于人工智能系统正在训练的视频和图像集(Runway和OpenAI都没有透露其数据来源)以及它们在多大程度上不公平地复制商标作品的版权纠纷也在酝酿之中。还有人担心,在某种程度上,视频制作机器可能会取代人类的工作和艺术。

  目前,最长的人工智能生成的视频片段仍然以秒为单位,并且可以表现出突然的动作和扭曲的手和手指等暴露故障。卡内基梅隆大学(Carnegie Mellon University)计算机科学教授亚历山大·怀贝尔(Alexander Waibel)自上世纪70年代以来一直在研究人工智能,他表示,解决这个问题“只是一个需要更多数据和更多训练的问题”,以及这种训练所依赖的计算能力。

  怀贝尔说:“现在我可以说,‘给我做一个扮成拿破仑的兔子走过纽约的视频’。”“它知道纽约市是什么样子,兔子是什么样子,拿破仑是什么样子。”

  他说,这令人印象深刻,但还远远没有形成一个引人注目的故事情节。

  在去年发布第一代智能手机之前,Runway曾作为图像生成器Stable Diffusion的联合开发者而在人工智能领域声名鹊起。另一家位于伦敦的公司Stability AI已经接管了Stable Diffusion的开发工作。

  大多数领先的图像和视频人工智能生成器背后的底层“扩散模型”技术是通过将噪声或随机数据映射到图像上,有效地破坏原始图像,然后预测新图像的样子。它借用了物理学中的一个概念,可以用来描述气体是如何向外扩散的。

  “扩散模型所做的是逆转这个过程,”麻省理工学院(Massachusetts Institute of Technology)计算机科学副教授菲利普·伊索拉(Phillip Isola)说。“他们采取了随机性,并将其凝结回体积中。这是将随机性转化为内容的方法。这就是你制作随机视频的方法。”

  麻省理工学院计算机科学与人工智能实验室的另一位负责人Daniela Rus教授说,生成视频比静态图像更复杂,因为它需要考虑时间动态,或者视频中的元素如何随着时间和帧序列而变化。

  罗斯说,所需的计算资源“明显高于静态图像生成”,因为“它涉及到处理和生成每秒多帧的视频”。

  但这并不能阻止一些富有的科技公司在展示更高质量的人工智能视频生成方面相互超越,持续时间更长。需要文字描述来制作图像仅仅是个开始。谷歌(Google)最近展示了一个名为Genie的新项目,它可以根据提示将一张照片甚至一幅素描转换成“无穷无尽的”可探索的视频游戏世界。

  克利夫兰州立大学(Cleveland State University)研究文本到视频市场的阿迪蒂·辛格(Aditi Singh)表示,在短期内,人工智能生成的视频可能会出现在营销和教育内容中,为制作原创素材或获取库存视频提供更便宜的替代方案。

  当麦当娜第一次和她的团队谈论人工智能时,“主要目的不是,‘哦,看,这是一个人工智能视频’,”创意总监卡西乌哈说。

  “她问我,‘你能不能用其中一种人工智能工具让图片更清晰,确保它看起来是最新的,看起来是高分辨率的?’”Kasiuha说。“她喜欢你引入新技术和新的视觉元素。”

  更长的人工智能电影已经被制作出来了。Runway每年都会举办人工智能电影节,展示这些作品。但这是否是人类观众会选择观看的,还有待观察。

  “我仍然相信人类,”CMU教授Waibel说。“我仍然相信,这将最终成为一种共生关系,你让一些人工智能提出一些东西,然后人类来改进或指导它。或者人类来做,人工智能来解决。——ap

  ×

乐同网声明:未经许可,不得转载。