嘉宾 | 张宝玉
编辑 | 云昭
出品 | 技术栈(微信号:blog51cto)
本文整顿自百度内容生态内容架构技术担任人张宝玉WOT2024大会上的主题分享,更多精彩内容及现场PPT,请关注技术栈群众号,发送【WOT】即可间接支付。
日前,在主办的WOT环球技术翻新大会上,百度内容生态内容架构技术担任人张宝玉带来了主题演讲《百度内容生态视频AIGC新探求》,围绕着群众化的视频创作的场景,详细引见了百度内容生态加团队在打造一站式AI视频创作平台的通常阅历与深化思索。
本文将摘选其中精彩内容,一致整顿,宿愿为诸君带来启示。
如今咱们身处内容消费的3.0时代,有了AI技术的加持,内容消费的方式或许门槛进一步拉低,将有望重塑整个内容消费的态势。因此,当视频和AI相结合的时刻,会有一个什么样的开展意向,这是咱们须要思索的一个疑问。
传统的视频内容消费的方式,关键分为这四个环节:视频创意、视频脚本、视频素材、视频剪辑。
那么,在整个视频的消费链路中,AI能在哪个环节去做助力或变革呢?
两年前咱们开局研发“度加”产品,它的定位是做一个一站式、全流程的AI视频创作工具,笼罩了刚才提到的完整的视频消费的流程,比如,提供帮你创意文案生成的才干,迅速组装或许成片的才干,海量素材介绍的才干等等。最后,针对一些实践视频消费当中的痛点,比如视频的增益价值的增强方面,咱们还辅佐做了AI数字人的才干。
1.视频文案生成的典型疑问
首先,创意文案生成方面,这是一条视频内容的终点。
在文案生成上,百度文心一言作为基础模型,有着弱小的文案生成才干,基于大模型的接入,咱们在现有的产品上做了一些充沛、英勇的运行。
比如,一位作者想要创作视频创作脚本,从零开局写创作难收费时费劲,由于不是一切创作者都有很强的文案才干。
这时刻,咱们首先要处置的就是,为创作者提供依据创意生成一个可适用的文案脚本的才干,这里咱们就引入了大模型的改写、润饰和扩写的才干。这外面咱们发现有两个技术细节的疑问:指令追随和真实性。
关于指令追随的疑问,关键的处置方法就是去基于基座模型去做微调,这里分享几个SFT的准则,沿着这个准则,可以协助缩短微调的周期,同时效果也能够有较大的优化。
第一,微调的物料要谋求品质,而不数量。第二,微调一些指令时,要明晰明白;第三,防止一些含糊的回答。第四,由于咱们平台是全垂类的创作平台,不是为某一个垂类笼罩,所以在微调时刻的数据要尽量做到多样化和高笼罩。
接上去真实性的疑问如何处置?咱们如今处置的方法还是用RAG增强。这里值得一提的是,咱们自建了两个较丰盛的事情源:事情检索库、热议接口。
前者依赖的是原来百度的常识图谱所积攒进去的事情检索,这个库的丰盛性和时效性是能够获取基础保证的。后者则附丽于百度热榜和热议搜查的才干,以及搜查事情的首发的特性,依据热议接口咱们会去纠正一些理想性的失误。基于这两个增强,咱们能够把文案生成的一些理想性失误的概率降到很低的水平。
经过这些优化,依据外部自评,文案生成的可用率能优化30%左右。如今这一版的截图的效果是咱们线上截上去的一个实践案例,大家也可以在产品上自己启动体验。
2.AI成片的技术路途及通常优化
生成了可用的视频脚本打算之后,接上去就是视频生成的步骤。目前大家更为相熟的技术路途是相似Sora的文生视频的生成式方式,但它也面临着很多理想性的疑问,我这里边罗列了三个。第一,生成视频有虚拟场景。第二,只管是端到端生成的,但目前生成的可用的视频的长度较短;第三,用来生成视频的耗时又很长。因此,在做真正的产品化时,这些疑问都须要处置。
于是咱们从产品的角度去思索实践能够为用户提供价值的技术路途?咱们选用了采编式的技术生成路途。
须要留意的是,采编式跟生成式两种路途是协同,而非抵触的。在采编式的技术路途中,很多素材、片段的生成都驳回了一些生成式的成绩。采编式路途会先组织生成**的要素素材,而后经过编排技术去把这些素材依照预设的脚本生成一个可运行的视频结果。
采编式的路途长处在于更符合于消费场景,为创作者提供更可用的视频,同时消费出的视频能够给C端的阅读用户提供价值,而不只仅是一个demo。
全体上的技术架构,分为三个部分:
此外,就整个系统构建来说,还要充沛思索它的产品化落地。由于外部要运行于多个产品线,就要思索它的通用性、灵敏性和接入便利性。
在工程化的角度来看,也要思索系统的耗时和老本疑问。这些都是咱们在架构这套系统的时刻要思索的要素。
编排环节中,早期驳回的传统的基于贪心战略的素材编排算法,贪心战略只能做到部分的最优,保证你句子跟素材之间的相关性,然而从全局看,就会存在诸多疑问,比如分歧性不够,整个视频的格调会凌乱,素材之间有腾跃等等,而这些疑问恰恰造成生成的视频变成了一个Demo,而不是一个可产品化落地的结果。
经过迭代,目前线上驳回的是跨模态序列生成的方法,迭代的中央在于,除了思索锚点关键句和素材之间的婚配性以外,咱们还要思索目前曾经采编的素材序列的分歧性、全文的相关性。这样,整个编排的效果在素材分歧性、格调分歧性、内容分歧性上都获取了清楚优化。
这里还有第二个疑问,即生成式的内容存在一些片段“无事生非”的状况,这时刻就须要一些事情类的素材来补充这个视频的内容。
目前素材库大略有几亿条素材,它的更新数量每个月能到达数千万。新热素材的收录和生成式效益能做到五分钟以内,可用性能做到96%。
素材库构建方面,有两种方法原生生成和视频抽取。前者只能处置一些创意素材的补充,而关于理想类素材的补充,视频抽取技术会相对成熟一些。
但在实践落地工程化中,会遇到比如在抽帧和跳帧时刻一些幻影的疑问,可以经过3D卷积的方法做优化,目前抽帧的可用率和单位母视频抽帧的结果的比率都是较高的形态。
此外,关于素材品质参差不齐的疑问,可以驳回品质过滤和品质增强的方法启动品质优化。
值得留意的是素材了解。由于咱们须要的不只仅是素材库,不只是一个原始的视频片段库,更须要相应的形容消息。
大家都知道,短视频是有自己的形容的,然而笼统成素材之后,相关片段的可形容数据,跟原始视频的形容性数据不是一个便捷的承袭相关,因此在承袭的时刻,须要做一个品质增强。这里咱们运行如今的模型技术把目前的很多的品质控制和增强的小模型做了一个笼统,构成了一个内容了解的大模型。目前线上20多种疑问都可以一致由该疑问启动处置。
3.AI成片的工程应战及优化
除了品质效果上的疑问以外,还有一些工程的疑问。构建环节中,会面临四种应战:安保、稳固、老本、时延。
这里重点分享老本和时延这两块内容。
首先是时延方面。从消费链路上看,关键耗时的中央在于素材搜集和场景编排。比如其中场景编排耗时的要素是要笼罩全场景、全垂类所造成的。
针对这些耗时的点,可以驳回两种优化方法:调度优化和算子优化。改良战略是驳回分层异步的调度框架去处置整个吞吐延时的疑问,关键目的是缩小目前生成义务的阻塞。另外,在整个系统当中,也做了分层缓存处置。
算法优化方面,关键针抵消费链路中有一些比拟重型的算子,针对这些算子或许要拆开来看,详细做优化,比如,首先,剖析算子的瓶颈真实I/O还是CPU/GPU计算,进而对算子启动服务化和拆分;其次,图调度方面的优化:整个帧图的复用、缓存的复用、预处置结果、模型了解结果的复用等;第三,模型层面联结战略同窗去做了多指标的视频推理或视频了解模型;第四,模型减速方面,目前有计算优化和显存优化以及模型紧缩的方法。
作为一个线上产品化的视频消费系统,无法防止地要思索老本的疑问。目前系统老本的开支关键蕴含三部分:计算老本、大模型老本,存储老本。
针对计算老本,除了刚才讲到模型的优化,咱们还对模型构建的服务框架也做了迭代更新。此外,还在部署级别,外部推进整个算子的混部,期间级调度方面,经过潮汐调度的方法,可以将使全体资源应用更充沛;在配件层面,咱们在一些新的XPU的配件上驳回百度自研的昆仑芯片,在全体应用率上,目前能做到的千卡的推理卡的应用率可以做到月均35%,较之前获取了大幅优化。
大模型老本方面,咱们依据目前的付费形式做了一些优化,比如说大模型运行以相似手机流量的方式去售卖,可以购置月包或许小时包。
运行在全产品线就须要录制自己的流量,这样可以预测流量的波形。预估流量和实践驳回的流量是十分凑近的,这样就能缩小咱们不用要的大模型的老本的购置。
4.数字人视频制造案例分享
在数字人视频方向,须要处置以下疑问。第一,笼统复刻的才干,这方面咱们自研和增强了一些绿幕抠像的算法,能够优化整团体物的质感;在老本方面,面向个别的创作者也做到了低老本创作;此外,还须要处置诸如时延、笼统真切等疑问。
值得一提的是,在整个数字人录制的环节中,咱们参与一些用户可选的关键素材的婚配配置,主播在播放的时刻,右侧会弹出一个小窗,来显示出的一些关键事情的影像录制,这个才干恰恰能处置一些实时播报环节中口播作者的痛点。
想了解更多AIGC的内容,请访问:
AI.x社区