
北京瑞光极远数码科技有限公司
销售热线:010-51668966
24小时服务热线:010-51668966
地址:北京市海淀区上地信息路26号
网站:www.rdtcom.com
通信语音转译与回放功能
1 核心功能实现
在甲方本地部署专用语音转译大模型,不依赖外部API,实现跨境语音通话过程中实时语音流转换为文字+中英双语实时互译,译文在席位屏幕侧实时显示,延迟≤3s;实现所有通话的全程自动录音与集中存储,录音文件与通话记录自动关联,支持转译文字与音频的同步高亮播放、关键词全文检索,录音在线查询周期≥6个月,支持长期归档备查。
2 技术实现方案(核心借鉴亮点,全环节量化落地)
(1)本地大模型实时语音转译
采用可离线部署的本地语音转译技术栈:ASR 采用 FunASR(Paraformer/Zipformer)训练与微调工具链,推理侧采用 sherpa-onnx(ONNX Runtime)离线推理;NMT 采用 CTranslate2 + Marian/OPUS-MT(或 NLLB-200 Distilled)离线翻译引擎。所有模型文件本地存放,不调用任何外部 API,可在甲方内网一键离线安装与升级。
实时处理链路:音频流按 500ms 分片进入 VAD(语音活动检测)→ ASR 流式解码 → NMT 流式翻译 → 断句/标点恢复(CT-Transformer/Paraformer PUNC)流水线;端到端延迟≤3s(满足招标要求),并支持热词/专有词表即时生效以提升民航领域识别与翻译准确率。
转译文字支持实时断句、标点自动添加、文字编辑和保存,译文排版清晰,与语音流实时同步,支持在回放界面重新编辑转译文字。
(2)高可靠性录音与分级存储方案
① 录音服务实现
部署国产化高可用录音服务器集群,基于SIP REC协议实现对所有内外线通话、甚高频通信、会议通话、视频讲解音视频的全程自动立体声录音,支持WAV(无损)、MP3(通用)等标准音频格式,录音无遗漏、无卡顿,录音成功率≥99.99%。
② 分级存储架构与容量规划
采用分级存储与归档策略,确保存话录音在线查询周期不少于6个月,并支持更长期归档备查;提供存储架构与容量规划方案,满足招标要求。
③ 容量规划量化
按甲方70个席位,日均通话4小时/席,MP3格式16kbps估算,年新增录音存储量约1.2TB,本方案初期配置≥50TB可用存储空间,支持通过增加硬盘实现弹性扩容,满足未来10年以上的存储需求。
(3)语音转译模型迭代升级方案(含技术实现+数据安全)
离线训练与自定义能力:支持在甲方内网GPU服务器上使用 FunASR 进行增量训练/微调(支持热词、专有名词词表、自定义字典与领域语料),训练完成后导出 ONNX 模型并通过 sherpa-onnx 热更新部署;翻译侧支持术语表(glossary)与领域语料微调(Marian/Fairseq),同样离线导出并本地部署。
① 技术实现方案
建立“用户反馈-数据采集-模型训练-版本升级”的闭环迭代体系,持续提升模型对各类外语口音、民航专业术语的识别和转译准确率:
反馈入口:在系统管理后台和回放界面提供“转译反馈”入口,用户可对低准确率转译片段进行标记和人工文本纠正;
数据采集:经甲方授权后,系统自动对标记的低准确率案例进行数据脱敏(去除个人信息、航班敏感信息、席位信息),将“原始音频-错误转译-人工纠正文本”的三元组存入本地训练样本库;
模型训练:定期(每季度/按需)在甲方内网训练环境中使用 FunASR 对 ASR 模型进行增量训练/微调;训练产物导出 ONNX 后,由 sherpa-onnx 推理服务加载并灰度发布;全流程不出内网,不上传任何原始音频或文本数据。
版本升级:模型优化完成后,通过系统灰度升级包推送更新,支持一键升级和回滚,升级过程不影响系统正常运行,升级后提供测试报告,经甲方验收后正式上线。
② 数据安全方案
数据采集:仅采集用户标记的低准确率案例,不采集全量语音数据,采集过程经甲方授权,支持开启/关闭采集功能;
数据脱敏:所有采集的样本数据均经过多重脱敏处理,去除所有可识别的敏感信息,确保数据无法追溯到具体人员和航班;
数据存储:训练样本库存储于甲方本地服务器,采用加密存储,只有授权的技术人员才能访问,访问过程记录日志;
模型训练:所有模型训练过程均在甲方内网完成,使用甲方的服务器资源,不依赖外部算力,确保数据和模型安全;
审计日志:样本采集、模型训练、版本升级的全流程均生成详细审计日志,记录操作人、操作时间、操作内容,支持追溯和审计。
(4)录音回放与全局全文检索
转译文字与录音关联:转译文字与对应的录音文件自动关联存储,转译文字纳入Elasticsearch国产化全局全文检索引擎,支持关键词快速检索;
同步高亮播放:回放界面提供“一键转文字”按钮,点击后自动将选定录音转换为文字笔录,实现文字与音频的同步高亮播放,点击任意文字段落,音频立即跳转到对应时间点,支持按文字检索录音片段;
多条件检索与导出:支持按日期、席位、航班号、电话号码、通话时长、关键词等多条件组合筛选录音,支持录音文件和转译文字的批量导出,导出格式为ZIP(包含录音文件和TXT/Excel文字笔录)。
3 亮点功能
多语种转译扩展:在中英双语基础上,额外支持中日、中韩小语种实时互译,满足甲方跨境国际航班的通信需求,小语种转译延迟≤3s,准确率≥90%;
录音文件智能分类:系统根据航班号、通话类型、通话对象自动对录音文件进行分类归档,生成分类目录,方便用户快速查找;
录音播放倍速调节:支持录音回放的0.5/1.0/1.25/1.5/2.0倍速调节,同时支持暂停、快进、快退、循环播放,提升回放效率;
转译文字关键词高亮:在检索结果中,系统自动对检索关键词进行红色高亮显示,方便用户快速定位关键内容。
上一篇:航空指挥通信功能模块技术实现方案
下一篇:航空指挥通信技术实现方案



