首页

加入收藏

您现在的位置 : 首页 > 最新资讯

商业头条No.13|Sora冲击波

时间:02-26 来源:最新资讯 访问次数:92

商业头条No.13|Sora冲击波

界面新闻记者 | 肖芳 李京亚界面新闻编辑 | 刘方远OpenAI发布Sora的当天,绿洲资本董事总经理胡哲人正在老家陪家人过春节假期。看到新闻之后,他第一时间到OpenAI官网查看了Sora的资料。“看得越多,感受到的冲击和震撼就越大。”过去一年,胡哲人几乎把AIGC领域文生图、文生视频的项目看了个遍,对Runway、Pika等海外公司的动态盯得也比较紧。但看到Sora的视频演示片段,他还是有一种完全意想不到的感觉。很多AI投资人的反应和他类似。在ChatGPT出现之后,他们就一直在讨论文生视频的技术以及商用价值。但按他们的评估,距离技术成熟达到商用水平至少需要两年,没人预料到进展这么快。“视频demo片段会不会是假的?”包括胡哲人在内的多位投资人看完Sora发布的新闻之后,都产生了类似的怀疑。理由是OpenAI公司前段时间遭遇了创始人被驱逐等诸多风波,现在为了抬高估值继续融资,它急需放出一个吸引眼球的东西。胡哲人的怀疑则来自于OpenAI并没有把Sora开放,绝大部分人都无法使用,只能看他们放出的演示。作为每年在国内看大量项目的投资人,直觉告诉他,这个东西没有像ChatGPT一样成为一个人人可用的产品,只能说明它还不成熟。他立刻和自己在上海交大的直系师弟进行了沟通,对方是非常知名的人工智能科学家。经过双方交流,再结合OpenAI官网产品信息介绍和技术报告,胡哲人基本可以确认OpenAI的Sora不是忽悠。他仍然想得到更确切的信息,最终辗转找到了在美国的朋友得到了Sora的内测机会。“我现在比较确认Sora是有真材实料的,而不是一个只为了宣传的纯市场行为。”怎么会这么快?在Google发布Gemini 1.5的当天,OpenAI放出了Sora,彻底打压了前者的热度。在正式发布之后,OpenAI相关团队成员便不断在社交平台X上放出Sora的演示。它能根据用户的文字提示,生成一段从细节精度、多样性到对物理规律的理解上都令人惊叹的视频。这些内容被集合推送至OpenAI的TikTok账号上,短短5天内便获得了51.3万次赞,粉丝数也涨至10.6万。除了演示视频,OpenAI还放出了两份文件,一份是上线声明,一份是技术报告。不过,自去年多模态大模型GPT-4问世之后,OpenAI官方释出的报告愈发精简,不再把细节公之于众。比如这次就只字未提与模型架构、数据规模、训练成本等相关的重点议题。外界只能结合报告,并通过已有的视频做各种技术推演。在深入这一领域的研究者看来,Sora在关键指标上碾压了目前市面上最好的文生视频产品们。制图:何苗研究员LiJun Yu目前在参与Google的VideoPoet项目,它是Google唯一有望和Sora形成竞争的产品。他在播客节目OnBoard!上表示,VideoPoet在生成视频时长和分辨率这两点都不及Sora, “我们的时长在2秒到5秒之间,很难一下子做到60秒。”这是极大的差距。一个视频从几秒到一分钟,不是单纯时间长度的升级,而是数据量、数据复杂度以及构建视频空间连贯性、一致性这些信息的指数级增加。目前,业界普遍猜测Sora的成功延续了OpenAI的Scaling law法则,即通过海量的数据,大量的算力,再加上大参数模型,最终“大力出奇迹”。出门问问创始人李志飞认为,Sora很可能是训练时将OpenAI的大语言模型LLM作为起点,然后再加入视频的模态继续训练。“Sora团队只有13人,肯定是大规模复用了大语言模型的东西。”云启资本合伙人陈昱表示,其在2021年底天使轮投资了多模态基础模型公司MiniMax。OpenAI似乎短期内不会向大众开放Sora。除了在社交平台上与CEO Sam Altman互动,外界并不能直接参与到Sora内测中去。OpenAI自己解释称,技术仍存在一些缺陷,包括一些空间问题。不过,这并不妨碍它成为现在世界上最强的文生视频产品。OpenAI的技术报告也在标题上赫然指出,Sora这种视频生成模型是「世界的模拟器」。“是不是又要换方向了?”同样经历了Sora带来的震撼之后,一批应用层AI创业者开始坐不住了。“是不是又要换方向了?”一位文生视频公司的创始人向界面新闻表达了他的挫败感。目前,国内有100多家专门做AI文生图和AI文生视频的公司。去年下半年,Runway一些源代码释出,国内还出现了一批专门使用Runway做文生视频的公司。因为ChatGPT的走红带火了整个AIGC赛道,投资机构也非常倾向于投资文生图和文生视频类公司,因为这类公司的产品和服务能够很快出来,做出来的产品也比较酷炫。制图:何苗“就像炒股,文生视频是非常火爆的题材,去年下半年新入场的初创算是追到了高点,没想到突然又出来Sora,可能有一批你听都没有听过的公司直接就要消失了。”波形智能首席产品官万磊表示。万磊太熟悉这种感觉了,从去年年初创业以来,他看到了一批又一批AI创业公司因为GPT版本的升级迭代而死掉。他自己也是典型案例:最开始,万磊做了一个AI英语口语培训应用,主打的是用户可以选择不同性格的英语老师来对话练习,分析自己的语法问题。当时这是一个非常新鲜的创意,几乎没有人能模仿。但当GPT-3.5出来之后,大批竞争对手涌现,OpenAI的升级让训练难度大幅降低。而GPT-4发布之后,这个产品彻底丧失了竞争力,用户可以直接和GPT语音对话,人物角色训练只需要短短几句话就能完成。同样,去年上半年还涌现一批AI辅助视频创作的公司,但并不像Sora这么智能,还需要素材库的辅助。在嘉程资本创始合伙人李黎看来,Sora把视频素材库类的公司全部都颠覆掉了,这个方向的公司,她所在的机构也不会再投。但经历了去年一波又一波的技术迭代之后,很多AI创业者和投资人对新技术带来的创业公司倒闭潮已见怪不怪。在他们看来,AI创业就是在这种技术爆炸过程中摩擦成长的。“Sora的出现对国内的AI创业者也不是坏事。如果你对自己的创业项目还有期待的话,看到Sora之后就可以立刻停掉换方向了。”一位投资人表示,“这其实是救了很多公司,尤其是一些排位比较靠后的AI视频类公司。”“融不到10亿美金,可以洗洗睡了”在Sora发布之后,国内的基础大模型公司开始了新一轮公关战。月之暗面率先开战,于2月19日宣布完成了最新一轮10亿美元融资。而另一家公司,在还没有完成新一轮10亿美元融资之际,已经先向媒体放风公布了即将完成融资的消息。如果说应用层公司对Sora的反应是悲喜交加,那国内做基础大模型的公司更像是遭遇了一次生死存亡的警告。Sora的出现再次验证了大数据大算力的“暴力美学”,这会逼迫追赶者继续去堆算力,但堆算力就意味着要烧更多的钱。“基础大模型的创业公司,如果融不到10亿美金,可以暂时洗洗睡了。”陈昱表示。这是一场持久战,10亿美金只是挤上牌桌的资格。要训练一个等效于GPT-4的模型需要5000-10000张H系列的GPU卡,而每张卡的价格高达3万美元,再加其他配套设备成本,投入可达数亿美元。而这还不包括推理需要的算力和人力成本,未来的模型升级所花费的资金还要上一个数量级。业界普遍认为,在国内众多基础大模型创业公司中,留下的不会超过5家。当下正是各家公司打融资心理战的时候,多一家公司公布融资信息,就意味着又有几家将被挤下牌桌,需要尽早放弃基础大模型的研发。制图:何苗除了创业公司,互联网大厂的情况也并不乐观。在Sora发布之后,大厂中只有字节跳动公布正在研发一款名为Boximator的创新性视频生成模型。但字节跳动官方给出的回应称:Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。“这些互联网大厂内部肯定在做,也一定有还没放出来的。但我相信,这些大厂没放出来,只能是因为效果还不尽如人意。”一位行业人士告诉界面新闻。而在另一位多模态大模型公司开发者看来,在用户端爆火过的模特换装和科目三舞蹈,根本不是真正意义上的文生视频。模特换装是通过改描述词,修改视频元素得成。而科目三舞蹈只是把模版视频里的动作骨骼提取出来,再加到用户上传的自己那张照片上,只能算是动作提取。“基础大模型核心还是要靠人才。”一位初创AI公司创始人对界面新闻表示。他在一家头部互联网大公司任职多年,熟知大厂内部的情况。他表示,一些大厂内的创业激情已经很少了,组织关系非常固化,年轻人想提一个意见很难。“而大模型真正需要的是年轻人拼了命去干,才能干成的。”事实上,新一轮抢人战也在打响。最新消息显示,资深人工智能专家,Google VideoPoet项目研究负责人蒋路被挖去了TikTok,这体现出字节不想置身事外的态度。多位字节内部人士告诉记者,去年6月字节内部决定不投资任何大模型公司,把所有精力都专注在自建模型上,但此后其全盘AI工作进展一直不顺。人才会是算力之外的另一卡点,也是新的变数。昆仑万维董事长兼CEO方汉日前称,目前看,国内大模型公司最稀缺的是核心算法人才,但乐观的是,供需情况会迅速得到缓解。“还是先追上GPT-4吧”既然Sora生成视频的能力被公认是一项可用的强力资产,那国内有什么方法可以迎头赶上?“我们现在根本还扯不到多模态的事情上去。”某互联网大厂一位技术专家告诉记者,Sora问世几天来,他们内部也很焦虑。“都还不知道接下来要怎么办。”目前互联网大厂中,只有字节、腾讯、百度披露了视频生成相关的工作, 但水花不大。在头部大模型初创公司中,也只有智谱在文生视频方面有所布局。事实上,有没有视频生成模型也许不那么重要。“ChatGPT之前大家也都有聊天机器人啊……关键是能不能到达那个水准。”某大厂模型业务负责人有些无奈,据其透露,这家大厂暂不打算开展文生视频方面的工作。初创方面则是另一番局面。去年下半年,国内AIGC领域融资向文生图与视频方向靠拢,一批外界很少听闻的公司悄然成立之后又迅速走向消亡。文生视频领域剩下的几家佼佼者,包括清华大学计算机系教授朱军的生数科技,原字节跳动视觉技术负责人王长虎创办的爱诗科技,以及前京东副总裁梅涛创办的HiDream。但目前这几家的产品和 Sora 对比,已被全面碾压。前亚马逊首席科学家,著名深度学习专家李沐建议业界过一阵再来谈Sora,他认同大量媒体的评价,即Sora的工作有点像视频生成界GPT-2到GPT-3的时刻,模型本身跟前作变化不大,但使用了几百倍算力,“目前报告关键问题有所缺失,相信学界和开源界会很快跟进。”现下,国内基础模型层公司的当务之急并不是努力赶上Sora,而是努力赶上GPT-4。去年年中,有创业者专门详细测试对比了所有国内主流大模型产品与GPT-4,得到的结论是“有很大进步空间”。科大讯飞董事长刘庆峰则公开表示,国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上跟GPT-4还有差距。“GPT-4放前面,Sora放后面,国内还是先把GPT-4搞好吧。”近日,与陈昱接触的国内大模型创业者们目前也没有特别焦虑,因为大家都沉浸在努力做GPT-4的进程之中,“我知道几家包括大厂内部都在训练,都没有训练完。”据他判断,第二季度会是国内版“GPT-4”真正出炉的节点。万磊感受到,去年大家普遍都在“卷技术”。这位大厂出身的90后创业者说,如果不做真正技术上的突破,大家对于“国外AI教父是奥特曼,国内是李一舟”的吐槽便会成为现实,这是他最担忧的事情。“焦虑是没有用的,不解决问题。”嘉程资本创始合伙人李黎称,创业者必须仔细看清楚当前所处的位置,做好能做的事情。还有新机会吗?当然,面对Sora其他人不是完全没有机会。在Sora模型发布的当天,Meta推出了一款全新开源视频预测模型V-JEPA。开源大语言模型在过去一年经历了如火如荼的发展,其中的佼佼者与GPT-4之间的差距已经越来越小。硅谷风投机构Fusion Fund创始人张璐表示,开源领域有很大的竞争空间。她看好开源平台层面上有新的语言模型能对标GPT-4,当然也会有新的多模态模型能追上Sora。技术的颠覆是更具想象力的一条道路。现在业界基本达成共识,Sora所做的是把扩散模型Diffusion和Transformer骨架结合在一起,加上大量的数据和算力最终产生了我们看到的结果。但这种方式也许不是文生视频的最优解。图灵奖获得者、Meta首席科学家杨立昆就曾多次批判OpenAI的技术路线。Sora出现赢得所有人的惊叹之后,他也表示这些视频并不代表模型理解了物理世界。Amino Capital合伙人徐霄羽表示,Pika未来的技术路线也很值得观察。这家初创公司目前正在自建模型。在对Sora技术路线的质疑声中,老生常谈“作为AI大模型主流架构的Transformer也许并非唯一解”被重新提上日程。硅谷投资人们一直认为,如果能出现其他超越Transformer的新模型,那OpenAI就不会独占鳌头。面对Sora的横空出世,Runway CEO第一时间在X上发推称,“game on(竞争开始了)” ,表态要和OpenAI正面竞争。国内技术派创业者也没有示弱。“我们看到Sora也很激动,正在加班加点迎头追赶。”王长虎创办的爱诗科技仍保持乐观,这家公司和Sora完全处在同一赛道之上。更多应用层的创业者则在思考如何能利用上Sora的能力来帮助自己。“Sora出来之后,我们非常兴奋,做一个真的有血有肉的电影完全没问题了。”万磊第一时间意识到了公司的新机会,并立刻在合伙人群里分享自己看法。他参与创办的新公司波形智能的主要业务是基于自研模型生成小说、剧本内容。去年,波形智能讨论过将业务从剧本创作拓展至成品的短剧生成一条龙服务,但这个方向最终卡在了文生视频的质量上,当时市面上的接口基本都无法达到满意的效果。现在,也许新的机会就要来了。“现在我们的战略可以重新调整了。”他说。

本信息由网络用户发布,本站只提供信息展示,内容详情请与官方联系确认。

标签 : 最新资讯