- 0
- 40 words
今日主要围绕两项功能开发,分别是热点数据内容总结、语音合成工具部署,两者均为数字人播报视频搭建的核心支撑,全程围绕“落地产出”展开,重点攻克技术难点,确保流程可复用以及上下串联。
热点数据内容总结
基于已有的技术栈(Ollama qwen3:8b本地模型、阿里千问API),明确了不同文本长度的适配方案。简单实验确定小文本与长文本的划分界线,即中文≤1500字(≤800token)的小文本,直接用本地qwen3:8b总结,无需调用云端API;超过该界线的中长、超长文本,采用“本地模型分段粗提+阿里千问API合并精总”的模式,兼顾成本与总结准确性。同时,编写了Token计数工具,可快速判断文本长度,自动匹配对应总结方案,提升效率。
该主题的关键难点主要有两点:一是本地模型的上下文窗口限制,qwen3:8b默认num_ctx为2048,若不控制单段文本长度,易出现总结丢信息、跑偏的问题,需精准控制分段token数;二是模型参数适配,需将temperature调至0.1左右,才能保证热点数据总结的客观性和精准性,避免出现冗余或偏离核心数据的情况。
语音合成
核心目标是为数字人播报提供自然、稳定的语音输出,作为数字人播报视频搭建的核心环节,重点测试并对比了多种方案,最终形成可行的部署路径。最终确定了适配Mac M4设备的语音合成方案,即阿里开源的CosyVoice本地模型,通过web UI的前置测试,到代码源仓库的代码适配,最后实现脚本化的“文案→语音”一键转换,适配数字人播报的需求;梳理出CosyVoice的正确安装流程,解决依赖安装难题, 从之前使用venv环境隔离演变到conda, 适配AI特定场景的复杂依赖(多语言隔离)。
该主题的关键难点更为突出,也是今日实践的主要卡点:一是工具依赖安装的规范性,最初尝试通过pip安装cosypython包时反复报错,后确认该包并非公开PyPI包,CosyVoice需通过克隆源码、安装依赖、源码编译的方式部署,直接pip安装无法成功;二是环境跟隔离性调试,CosyVoice部署环境依赖复杂,简单的venv只能对python隔离,而CosyVoice作为相对较复杂的语音模型,同时也会对底层C有依赖性要求,需要部署conda整体隔离,初次调试耗时较长;三是语音合成的音色问题,系统预置音色比较普通,通过测试不同模型复刻音频的效果,最终确定了一个音色相对较好的版本,但实际离预期还有差距,后续希望能进一步再完善。
针对上述难点,已形成对应的解决方案:热点数据总结方面,通过Token计数工具控制文本长度,调整模型参数,确保总结精准;语音合成方面,采用CosyVoice工具实现快速落地,简化部署流程,同时梳理CosyVoice的标准安装步骤,为后续优化语音效果预留空间。
后续计划
- 网页数据进一步清洗,刨除多余信息。只保留跟主题相关的内容,其他内容不需要总结,这需要根据不同网站的内容结构做调整,考虑引入大模型做判断
- 数字人的驱动实现,初步调研为LivePortrait,需要进一步测试以及功能适配
- 数字人形象的确定
- 语音质量的提升:理想音色,说话加上语气和感情
- 功能串联后,需要进行内容的选择与文案优化,目前的热点数据还是比较多,需要确定分类,以及最终对播报文案做优化(提示词与方法工具需要调研)
