在今天的直播中,OpenAI展示了Sora视频生成模型的新功能,用户现在能够创建最高1080p分辨率、长达20秒的视频,并且可以选择宽屏、竖屏或方形的画面比例。Sora不仅支持视频内容的扩展、混编(remix)和融合,还允许用户基于文本提示生成全新的视频内容。此外,全新的故事编辑工具还可以帮助用户能够精确控制每一帧的详细输入,大幅提升了视频创作的精细度和灵活性。
自今年2月OpenAI放出Sora视频生成片段后,公众对Sora的期待值早已拉满,一场文生视频技术的竞速赛在全球范围展开。 国内在文生视频算法领域也取得了显著进展,根据国家网信办公开信息显示,今年以来国内共有2277个深度合成服务算法通过备案,其中主要用途描述中带有可实现文生视频能力的算法34个,备案名称中明确界定为“文生视频算法”的仅有6个。
文生视频算法通过分析和吸收海量数据,学会了依据文本描述来创造相应的视频内容,结合自然语言处理(NLP)和计算机视觉(CV)的最新进展,提取文本特征并转换为数值特征,然后利用扩散模型,逐步从随机噪声中去噪,最终生成与文本描述相匹配的视频内容。这一过程涉及到复杂的编码和解码机制,包括文本到视频的映射、视频生成等关键技术。
2024年通过文生视频算法备案的34家公司中,大部分是人工智能技术、应用相关领域的中小创新企业。如在自然语言处理、对话式 AI 等方面有深入研究和应用的北京红棉小冰科技有限公司等。
此外,其中也不乏上市公司或在行业内有较高的知名度和影响力的科技创企。比如专注于大语言模型等相关技术的研发与应用的北京智谱领航科技有限公司,就是开发了生成式AI助手智谱清言的智谱华章旗下全资子公司。其智谱多模态视频生成算法,主要应用于智谱清言—清影AI网站,根据用户输入的文本、图片等信息,即可生成符合用户需求的视频。
商汤科技是国内计算机视觉领域的头部企业,公开信息显示,其通过备案的商汤V-ME视频合成算法支持已有人物视频、动画、声音、文字等多种元素进行驱动,用户可根据自身需求灵活选择适合的素材驱动视频生成,主要面向 C 端用户,满足广大用户的娱乐创作需求。
“智境云创文本生成视频算法”的备案主体同样有上市公司背景,北京智境云创科技有限公司是深交所上市公司天娱数科(股票代码:002354)的子公司。据公开信息显示,智境云创在今年6月一次性通过了“智境云创人脸融合算法”、“智境云创文本生成视频算法”、“智者千问大语言模型算法”三项算法备案。其中,“智境云创文本生成视频算法”核心技术涵盖视频生成模型、图像合成、深度学习、自然语言处理等多个领域,能够对视觉和听觉元素进行深度学习与分析,实现多模态融合,从而更精准地理解和生成符合用户需求的视频内容,适用于多种应用场景的需求,如广告创意、教育培训、娱乐产业和新闻传媒等。