请对购买Speech Graphics做反馈（同意或需要补充信息）

983509 · 2024 年6 月 27 日 12:58

申请人：陈伟胜
【购买原因】

根据音频内容生成包含表情的口型动画，是AI表演中角色必不可少的能力。Speech Graphics是目前接触到方案中效果最好并且最稳定、可控性最强的解决方案。其中SGX是用于批量处理音频文件来生成面部动画的软件，SG COM是通过音频流实时生成面部动画的SDK，二个部分可以单独采购。无论SGX还是SG COM都需要对角色头模进行资产设置（生成.k文件），此项费用的标准价格是4000美元/个。

由于AI表演目前处于研发阶段，不需要大批量生产，但是需要尝试多种不同的角色，因此，申请购买一份单坐席的SGX工具软件，以及角色资产设置服务若干（写实任运、皮克斯任运、喵星人等）。

【费用详情】

采购预算如下 （本次合计58000美元）：

SGX工具License 单坐席版本 1份 38000美元/年
角色资产设置费用 5份 4000美元/个
参考价格

1012×648 112 KB

857828 · 2024 年7 月 1 日 13:58

同意采购业界领先的解决方案，应用到AI表演中。考虑到价格因素，在采购的时候考虑谈判不同的方案，保证使用的同时降低合作风险。

1999 · 2024 年7 月 1 日 14:55

需要问清楚下，只有SG-COM才可以实时地跑，只买SGX应该只是调.k文件，最终还是需要SC-Com去播放

828626 · 2024 年7 月 1 日 16:38

用真实账号测试进行验证，这类型的算法驱动3D的最好验证方式就是实际测试。通过不同场景的效果的对比，来积累必要的经验。

666009 · 2024 年7 月 2 日 03:22

我们在speech Graphics上的评估结果是：1、speech Graphics整体效果明显优于audiotoface和lipsyc；2、speech Graphics还是有些小问题。比如，嘴唇有时候也会抖动，有些地方张嘴会有点夸张。3. 语音驱动口型预研子项目实验的diffspeaker和speech Graphics效果接近或者相当的。但是，目前我们diffspeaker最大的问题是模型的输出格式，还不能直接用在metahuman上，已经发现了一篇论文提到相对可行的方案，我们已经在尝试了。diffspeaker目前训练用的中文语料比较少，预计后续增加中文语料进行训练的话，效果可以进一步提升。
结论：speech Graphics的价格还是比较贵，如果自研效果相当，并且可以在本地单机RTX1080就可以运行，不一定需要购买。如果着急用的话，建议看是否可以先短期比如3个月

983509 · 2024 年7 月 2 日 03:25

补充沟通，结论推荐购买

983509 · 2024 年7 月 2 日 06:38

伟胜回复：已与SG确认可以直接用SGX

983509 · 2024 年7 月 2 日 06:52

7.2结论：陈宏总反馈先购买相对短期一些的服务周期，同时再同步研发（流程也同步发起）
（关于明宇团队当前的产出，可以会后再对接）