请对购买Speech Graphics做反馈(同意或需要补充信息)

申请人:陈伟胜
【购买原因】

根据音频内容生成包含表情的口型动画,是AI表演中角色必不可少的能力。Speech Graphics是目前接触到方案中效果最好并且最稳定、可控性最强的解决方案。其中SGX是用于批量处理音频文件来生成面部动画的软件,SG COM是通过音频流实时生成面部动画的SDK,二个部分可以单独采购。无论SGX还是SG COM都需要对角色头模进行资产设置(生成.k文件),此项费用的标准价格是4000美元/个。

由于AI表演目前处于研发阶段,不需要大批量生产,但是需要尝试多种不同的角色,因此,申请购买一份单坐席的SGX工具软件,以及角色资产设置服务若干(写实任运、皮克斯任运、喵星人等)。

【费用详情】

采购预算如下 (本次合计58000美元)

  • SGX工具License 单坐席版本 1份 38000美元/年

  • 角色资产设置费用 5份 4000美元/个
    参考价格

同意采购业界领先的解决方案,应用到AI表演中。考虑到价格因素,在采购的时候考虑谈判不同的方案,保证使用的同时降低合作风险。

需要问清楚下,只有SG-COM才可以实时地跑,只买SGX应该只是调.k文件,最终还是需要SC-Com去播放

用真实账号测试进行验证,这类型的算法驱动3D的最好验证方式就是实际测试。通过不同场景的效果的对比,来积累必要的经验。

我们在speech Graphics上的评估结果是:1、speech Graphics整体效果明显优于audiotoface和lipsyc;2、speech Graphics还是有些小问题。比如,嘴唇有时候也会抖动,有些地方张嘴会有点夸张。3. 语音驱动口型预研子项目实验的diffspeaker和speech Graphics效果接近或者相当的。但是,目前我们diffspeaker最大的问题是模型的输出格式,还不能直接用在metahuman上,已经发现了一篇论文提到相对可行的方案,我们已经在尝试了。diffspeaker目前训练用的中文语料比较少,预计后续增加中文语料进行训练的话,效果可以进一步提升。
结论:speech Graphics的价格还是比较贵,如果自研效果相当,并且可以在本地单机RTX1080就可以运行,不一定需要购买。如果着急用的话,建议看是否可以先短期比如3个月

补充沟通,结论推荐购买

伟胜回复:已与SG确认可以直接用SGX

7.2结论:陈宏总反馈先购买相对短期一些的服务周期,同时再同步研发(流程也同步发起)
(关于明宇团队当前的产出,可以会后再对接)