从声音到形象，AIGC 赋能的 TT 语音年度盛典有多好玩？

摘要：

23年是 AIGC 暴热的一年，这一年我们既兴奋又彷徨。兴奋之处在于新技术持续突破，业界“百模大战”的白热化，一些创新应用开始崭露头角，例如 ChatGPT 和 DALL·E 3，Midjourney，HeyGen，星野，Copilot 等。彷徨的是我们如何顺势而为，借助 AIGC 的热浪快速赋能业务，助力业务突破。

趣丸科技TT语音2023年度盛典正式启动，以下简称 “年度盛典” ，今年的年度盛典又会带来哪些新的挑战呢？本文通过简要针对年度盛典活动玩法，任务，效果拆解，告诉大家我们如何从彷徨中逐步探索 AIGC 的应用，无论是身份卡，吉祥物还是年度报告 TTS 播报，这只是开始，我们坚信未来随着多模态，多 agent 应用普及，未来的年度盛典会有更加独特的展现。

本文大纲

1. AIGC的暴热

2. AIGC的赋能

3. AIGC的未来

4. 总结

1. AIGC 的暴热

随着22年 AIGC 元年的到来，越来越多的企业或个人投身于 AIGC 的研发和应用热潮中。无论是逐利的资本，还是大中型团体都在 “百模大战” 中 “逐鹿争雄” 。

从模型的角度出发了解 AIGC 的暴热，上图可以清晰看到，从通用到行业大模型，从闭源到开源再到领域大模型，大家都在研发属于自己的大模型，这也充分证明大模型是AIGC 时代的主角，起着主导性作用。

2. AIGC 的赋能

看到上面层出不穷的大模型，相信大家肯定会有疑问：大模型到底带来了什么？本文就不啰嗦了，直接从23年TT语音年度盛典讲起，一起来聊聊关于 AIGC 赋能的年度活动到底有哪些不一样之处

结合公司在年度盛典的活动安排，如何利用 AIGC 技术来赋能年度盛典是一个值得探索的问题，接下来将会从三个方面简单介绍今年年会的不一样之处：

身份卡玩法

玩法介绍

进入年度盛典身份卡定制活动，完成偏好选择，生成专属于用户的盛典身份卡片。

所做的事情

技术团队将 AIGC-文生图能力应用在盛典嘉年华的活动当中，通过用户选择的标签生成符合标签的定制化人物；通过卡片的精美程度、稀有程度、角色可选范围构成多个等级的卡片，配合盛典活动的任务，促进用户深度参与。为了提高图片合成质量：

• 使用 openpose 模型控制人物姿态；

• 对脸部和手部进行定位并重绘；

• 为了增加人物脸部多样性，训练多人物 lora；

• 分多轮合成，每一轮合成分析每个 prompt 的合格率，筛出低质关键词，提高筛选合格率；

效果展示

吉祥物玩法

玩法介绍

进入年度盛典吉祥物活动，完成系列问题的选择，生成专属于你的盛典吉祥物卡片。

所做的事情

技术团队将 AIGC 技术运用到了此次答题活动中，结合用户回答的系列选项，利用 AIGC 绘图技术生成个性化吉祥物，让每个用户都拥有专属于自己的吉祥物，增强了用户的参与度和活动的趣味性。为了保证出图效果，针对动物场景利用 lora 对 Stable diffusion 模型进行微调，精细设计了吉祥物文生图的 prompt 模板。并构建了动物形象设计相关的标签词素材库，结合了 controlnet 控制器提升吉祥物卡片的形态和类别的多样性。此外，还支持在生成的吉祥物卡中融入冬至、圣诞等特殊节日相关元素，提升平台节日氛围。

效果展示

有声音播报到年度报告

玩法介绍

年度报告加上趣丸科技吉祥物生成的定制音色念出你每一项回忆内容的总结，增加实感。提升 “陪伴” 的氛围感。

所做的事情

技术团队将音色克隆 TTS 技术应用在年度报告活动中，在 VITS 语音合成的模型基础上增加 bert 语义特征提升生成音频的韵律效果。针对文案中出现的中英文混合单词，同时训练中英双语合成模型，利用迁移学习技术，使中文音色能够合成中英混合音频。为了增加音色特点，使用了多种音色特征混合，音色转换等方法，实现风格明显的萝莉萌妹，慵懒御姐，搞笑猛男，气质男神，阳光少男五种音色，满足不同用户的喜好，增强了年度报告阅读过程中的沉浸感。

3. AIGC 的未来

在 AIGC 的暴热这一节中，简单介绍了 AIGC 时代的国产大模型，大家也了解目前大模型的迭代方向和应用场景。但随着 gemini 的发布，让技术团队对 AIGC 有了重新的认识。本文推测，来 AIGC 在模型和应用层面有两大趋势。

趋势一：多模态模型

无论 google 在 gemini 演示视频有没有造假，但始终相信 gemini 的发布将成为 AIGC 的又一座丰碑。它是音频，图像，文本三者纯多模态的学习，通过惊人的演示效果就证明了未来多模态才是主流。但多模态模型也面临几个挑战，例如多模态训练的算力和数据，推理框架的高效和并发，生成结果的准确客观，内容安全可控等。回到讨论的主题，可以想象未来的年度盛典可以更加富有科技感。例如，用户可以通过语音或者文本自定义音色和数字形象，沉浸式参与年度盛典活动，获得专属身份象征，满足用户极致体验。

趋势二：多agent应用

近日，来自清华大学的研究人员联合面壁智能、中国人民大学、MIT、CMU 等机构共同发布了新一代流程自动化范式 “智能体流程自动化” Agentic Process Automation（APA），结合大模型智能体帮助人类进行工作流构建，并让智能体自主处理工作流中涉及复杂决策与动态处理的环节，进一步提升自动化的程度，提高效率，将人类从繁重的劳动中解放出来。最近 AI 领域兴起的大模型智能体技术（Large Language Model based Agents, LLM-based Agents）给自动化技术创造了新的可能性。有没有可能将 Agent 技术的灵活性引入到 RPA 领域中，来进一步减少人的参与呢？该团队的研究探讨了大模型智能体时代下新型自动化范式 “智能体流程自动化” Agentic Process Automation (APA)。和传统 RPA（Robotic Process Automation）相比，在 APA 范式中，Agent 可以根据人类的需求自主完成工作流构建，同时其可以识别人类需求中需要动态决策的部分，将自动编排进工作流中，并在工作流执行到该部分时主动接管工作流的执行完成相应复杂决策。

为了探索 APA 的可能性，该研究工作实现了一个自动化智能体 ProAgent，其可以接收人类指令，以生成代码的方式构建工作流，同在工作流中引入 DataAgent 和 ControlAgent 来在工作流中实现复杂数据处理与逻辑控制。ProAgent 的研究展现了 APA 在大模型智能体时代下的可行性，也揭示了 LLM 时代下，自动化技术的崭新可能性。下图是 APA 和 RPA 处理的左右对比，可以清楚发现基于 LLM 的 agent 处理流程更加平滑高效，不仅可以实现工作流构建的自动化，而且还可以实现工作流执行时动态决策的自动化。基于以上多 agent 的应用说明我们可以大胆想象，未来年度盛典活动可能是多 agent 协作的决策和执行工作流，一起为活动创作个性化玩法。举个例子，基于用户过往行为和内容数据，agent 给出活动期间承接方案，并针对文案和图像，音频等媒体内容按需进行多模态生成，借助活动期间用户的反馈进行优化迭代，自我演进和提升；

4. 总结

随着 AIGC 的持续暴热，未来无论是我们的工作还是生活都将会发生重大变化，只是变化的趋势和程度受技术和资本的制约。但可以确定的是，多模态模型和多 agent 应用将引领我们追求更廉价的创意，更便捷的实施，更高效的决策，更极致的体验。在本次年度盛典活动中，技术团队借助AIGC，大胆假设，小心求证，在为用户提供极致体验的同时也助力业务增长。

参考文献：

1.https://about.fb.com/news/2023/12/meta-ai-updates/

2.https://www.gemini.com/apac/hong-kong

3.https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

4.https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf

5.https://talk.gitee.com/report/china-open-source-2023-llm-report.pdf

6.https://finance.sina.com.cn/blockchain/2023-12-28/doc-imzzpqee7520567.shtm

原文链接：https://blog.csdn.net/QWYF123/article/details/136043480

从声音到形象，AIGC 赋能的 TT 语音年度盛典有多好玩？

相关推荐