智能会议系统技术方案

作者:广州讯中信息科技有限公司 浏览: 发表时间:2022-06-16 13:59:13

项目概述

建设背景

随着信息时代的到来,海量语音的获取和存储能力愈发强大,基于会议办公的实际场景,会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。

结合**单位的会议办公现状,当前会议记录、出稿的准确性和时效性要求高,人员工作压力大,传统的人工整理方式已经很难满足要求。当前各类型会议,特别是重大、大型会议,介于信息安全等因素,需要指派内部专职人员全程记录,会后还要花费大量的时间反复回听录音、编辑会议纪要。很多重要会议具备时间长、信息量大、纪要输出严等特点,这对会议记录人员提出更高要求,会议记录和整理的工作强度大,且仍可能存在信息遗漏或会议思想理解偏差等问题,亟需得到解决。

基于以上背景,听见智能会议系统应运而生,在业界首次实现在会议场景下以符合安全要求的离线方式将发言语音内容实时转换成文字。该系统具有以下技术特点:一是语音转文字准确率高,中文标准普通话的转写准确率平均可达90%;二是数据安全性强,采用独立专业服务器,不需联网,可有效避免会议内容和信息的外泄;三是可针对发音人口音和应用领域进行定制优化,持续提升转写效果;四是可根据转写内容快速检索录音内容,提取会议纪要,实现便捷会议录音管理。

建设重要性

语音识别(Speech Recognize )技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用 ,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来,语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发,可满足会议演讲、会议研讨、沟通交流、大型会议等一系列需要进行实时文字转写的场景。

听见智能会议系统(便携式)是一款可实现语音转写的便携式智能语音产品,其核心功能包括:实时会议和音频转写。产品界面简单易用、设备便携,用户通过本款产品可以快速完成会议的实时记录与整理,也可以对已经录制好的音频进行整理。此部分项目的实施主要辅助用户进行实时及历史音频数据的转写,提升纪要整理的效率及效果。

相比于传统的人工记录方式,听见智能会议系统具备以下优势:

更***

人工记录一般需要在会议过程中全程速记、会议结束后也要花费大量的时间回听会议录音进行纪要整理。以1小时时长的会议为例,当前人工记录方式下的出稿耗时至少为会后4小时(3小时听打出文字+0.5小时整理纪要+0.5小时检查优化),对于需要快速出稿的纪要一般投入几个人分工整理,耗时耗力。

听见智能会议系统能够提供实时转写功能,转写过程中支持同步编辑及重点内容标记,可保证在会后30分钟(10分钟提取纪要+20分钟检查优化)内即可出稿。相比于当前的人工记录方式,出稿效率可提升8倍。

更完整

传统人工记录一般是选择性记录,根据个人对“重要内容”理解程度的差异,可能存在关键信息遗漏的情况,切遗漏信息的追溯缺乏途径和手段。

听见智能会议系统实现对全部发言内容的记录,数据化的“文字”更容易触发个人对信息的重视程度,有效避免信息的遗漏。

更准确

人工记录会对会议内容附加个人的理解与加工,再不足够理解会议背景的情况下,可能会有理解上的偏差、导致会议纪要并不客观。

听见智能会议系统能够提供对与会人员发言内容的高保真记录,且可以通过文字定位并回听语音,达到声文对应,辅助记录人员更好的理解会议思想、提升纪要结论或纪要决议的准确度。

更安全

当前部分重要会议会邀请专业的速记人员,虽然会签署保密服务协议,但仍然不能保障信息完全不外泄;即时仅限内部员工整理的会议纪要,一场会议会几个人同事整理、或经手很多人,导致信息的安全无法保障。

听见智能会议系统的应用,能够大大降低对记录人员的要求,1名普通的员工在会后简单编辑即可出稿,不需要外聘速录人员、内部参与的员工也控制到***少,只需要做好设备的安全管控,就能有效保障会议信息安全。

成本更低

听见智能会议系统的应用,能够替代需要速记人员记录的场景,能够缩减专职记录人员的数量,系统作为一次性投资资产、其解放的人员及劳动成本是***的,真正实现会议办公业务的降本增效。

建设内容

本项目计划采购1套听见智能会议系统(便携式),满足日常办公会议、会议录音整理、外出访谈等场景下的文字整理需求。

系统技术指标

听见智能会议系统是讯飞核心语音技术的集大成者,系统集成科大讯飞***版本的中文语音识别转写引擎,采用13000小时以上的连续语流数据训练而成的声学模型及先进的二遍解码技术,另外独有文本顺滑、标点识别、英文数字后处理等自然语言处理能力,能够让识别结果更加准确、规范。本系统采用的核心语音技术成果,已成功获得Winograd Schema Challenge 2016评测大赛(新型认知智能国际评测任务)的***名,在该领域的专业性全球领先。系统的核心指标参数如下:

系统响应指标

系统应保证实时性,提供多用户、多任务操作,对用户的查询请求、语音识别等操作有较快响应。

响应时间:常规页面操作的响应时间≤5秒。

普通话转写指标

检索速度:亿级数据量,检索为秒级。

效果:安静环境下的标准普通话转写正确率达到90%。

信息处理标准

历史音频转写的文件类型支持mp3\wav\pcm\wma\mp4\avi格式,其他格式音频可采用格式转换器转成对应格式后再上传转写。

音频转写的采样率为16K*16Bit。

依据VAD技术(有效语音检测)及转写字数监控,实现转写结果自动分段。

业务流程

听见智能会议系统(便携式)由软件、硬件共同构成,实现在不同场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。用户可以通过系统提供的顺序播放、按句回听、重点标记等功能方便快速整理出材料;并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果。

系统标配为“定制超极本+单路声卡/全向麦克风”,其转写服务引擎、客户端软件同时部署在一台移动超极本上,提供实时语音转写和导入音频转写两大核心功能,能够满足不同场景下的文字整理需求。

实时转写流程(会场内已有麦克风调音台等设备)

针对已有数字发言系统的会场环境,直接通过声卡从调音台取音、完成会议实时发言语音的采集,设备接收到录音服务发送的音频信号后、调取引擎服务开始进行转写,并把转写结果实时发送给客户端软件,进行文字的展示和操作。


实时转写流程(会场内无拾音设备)

针对没有麦克风的中小型会议或外出交谈场景,可提供圆盘麦克风作为收音设备,其收音范围可达到3米,接入主机电脑后可完成对会议发言的实时记录。


导入音频转写流程

针对通过其他录播系统或录音设备获取的非实时的音频文件,系统支持导入历史录音进行快速转写,1个小时的音频文件月6-8分钟即可完成转写,且转写结果会自动分段、音字对应,提升阅读性和编辑容易度。


产品配置

软件能力

中文语音转写引擎

听见智能会议系统(便携式)主要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术,通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息,有史以来***次实现了识别十个英文数字的语音识别系统-Audry系统。八十年代,Bell实验室的Rabiner等科学家将原本艰涩难懂的隐马尔科夫模型(Hidden Markov Model-HMM)理论工程化,形成了较为完善的概率统计模型体系,识别性能也得到了很大的提高。2006年以来Deep Learning理论和技术成为了模式识别领域的一个热门研究方向,G. E. Hinton等深入研究了深度置信网络(Deep Belief Network-DBN)以及深度神经网络(Deep Neural Network-DNN)等模型结构,微软通过与Hinton合作率先将DNN应用于语音识别任务,识别性能取得了显著提升。此后谷歌、蒙特利尔,以及IBM又将循环神经网络(Recurrent Neural Netwok-RNN)成功应用于语音识别领域,特别是长短时记忆(Long-Short Term Memory)神经网络结构,取得非常出色的语音识别性能。加上目前图形处理器(GPU)计算能力的提升,以及互联网时代大规模标注数据获取成为可能,基于深度学习的语音识别技术已经在多个领域达到实用水平。

传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要转成文字的音频内容是人与人之间交互,智能会议系统需要基于机器语音识别技术构建语音转写引擎。智能会议系统构建的语音转写引擎需要能够实时、***的把人与人之间交流的语音转换为文字的能力,具体包括中文语音转写引擎与英文语音转写引擎,本系统需要完成中文连续语音识别转写引擎的建设。

系统应用的“中文连续语音识别转写引擎”为科大讯飞***版本,采用13000小时以上的连续语流数据训练而成的声学模型及先进的二遍解码技术,另外独有文本顺滑、标点识别、英文数字后处理等自然语言处理能力,能够让识别结果更加准确、规范。本系统采用的核心语音技术成果,已成功获得Winograd Schema Challenge 2016评测大赛(新型认知智能国际评测任务)的***名,在该领域的专业性全球领先。针对语音识别应用中面临的方言口音、背景噪声等问题,基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据,通过先进的区分性训练方法进行语音建模,使语音识别器在复杂应用环境下均有良好的效果表现。其核心语音识别引擎的主要功能特性如下:

端点检测

端点检测是对输入的音频流进行分析,确定音频的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。

篇章级处理技术和口语风格处理技术

解决人人对话转写问题的难点在于其场景的复杂性与影响因素的多样性,不仅需要海量的人人交谈数据,更核心的是需要在海量数据基础上进行建模,讯飞***推出的这两项技术对此技术难点有极大的突破。

混响降噪

混响降噪一直是语音转写的一大难点,实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在会议过程中也难以避免会有一定的噪声。对于为了听感而录制的有损失的语音,讯飞综合利用DNN加混响技术和DNN去混响技术,解决远场录音的混响问题,以适应用户在千差万别的环境中应用的要求。

双向RNN技术以及CTC建模技术

讯飞核心技术采用***近两年才应用到语音识别技术中的***的双向RNN技术和当下比较火的CTC建模技术,使得识别率比DNN技术和双向RNN技术分别相对提升了25%和10%。

关键词优化

关键词优化是提前将热词、专业术语、同音易错词等置入系统中,在说话者发言的时候,如有类似的语音内容,系统会自动进行检测、并识别为该特定词语。

转写后处理

即使在语音转写正确率非常高的情况下,转写文本的可读性仍存在较大问题,所以文本后处理的作用就显得尤为重要。文本的后处理主要包括分句与分段、内容顺滑,不仅实现按上下文语义进行句子划分、为句子加标点,还可实现自动提出转写结果中的停顿词、语气词、重复词等,使得顺滑后的文本变得易读。

智能调整识别策略

系统能够自动根据系统运行情况动态调整语音识别策略,在系统较忙时(CPU占用较高),采用计算量较小但具有足够精度的策略以保证系统的响应速度;在系统不忙时(CPU占用较低),采用精度更高的策略以达到更优的识别效果。该功能在保障稳定运行的基础上,充分利用系统的计算资源,有利于保护客户的设备投资。

客户端软件功能

听见智能会议系统(便携式),主要包括实时会议、音频转写两大功能。

实时会议

实时会议主要用于实时转写的场景,通过声卡连接场所内的音像设备实现采音,系统实现对采集音频的实时转写与编辑整理。

账号密码登录

产品默认账号为admin,初始密码为 “123456 “ 个人用户可设置项申进行密码修改。系统默认记住账号,为保障账号安全,系统不对密码进行记录,每次操作需重新输入。输入正确的账号密码后点击登录按钮即可登录进入系统首页。

实时语音转写

系统通过专业麦克风对全程进行高保真录音,并针对连续中文语流进行实时语音转写识别,并持续进行转写结果文本内容的输出。

内容编辑

在实时语音转写过程中用户可以实时对转写出的文本结果进行编辑,并进行重点内容标记。在实时编辑的过程中采用延时播放的策略,用户可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持选择查看原始结果,对比修改,方便快捷,结束后即可直接成稿,并根据重点内容,整理导出纪要。

顺序播放

在实时语音转写过程中,识别结果展现之后再开始连续播放音频,即在看到转写文本的时候,同步听到对应的音频,使得校对和编辑更加便利。

点击播放

支持手动选择音频播放的起点,可以通过选择文本内容决定音频播放的起点。

按句回听

会议暂停时,如有部分语句需要针对性再回听的,可以用鼠标左键双击文本,即可回听到对应的音频,回听音频所对应文本高亮显示,方便清楚的找到音频对应的文本。

重点标记

会议过程中如有重点内容或未及时修改的文本可以选中进行标记,便于会后进行整理。

关键词优化

针对每场会议需要提高识别效果的关键词,按要求添加入关键词列表中,会议开始前和会议过程中均可进行添加。建议添加人名、地名、公司名等。

在会议过程中选中需优化的文本后点击鼠标右键,选择添加关键词,也可快速添加到关键词列表中。

语气词过滤

在实时语音转写开始前或者进行文稿整理时,根据需要选择是否开启“语气词过滤”功能,若开启则能可将语气词和多余的词汇去除,以保证文稿的规整。

禁忌词屏蔽

可以将不适宜展示的敏感词添加禁忌词列表中,屏蔽此禁忌词,当识别到此类词汇时,系统提供不显示、*号和空格三种显示方式供选择。

自动分段

系统提供自动分段功能,可选择VAD+字数或VAD+关键词作为分段依据进行分段,系统默认为VAD+字数。

角色分离

系统支持手动角色分离和硬件自动角色分离两种方式:

手动角色分离

如果在会议开始前已经添加了相关的发言人姓名,那么此时界面左下方会显示已添加的发言人信息,相应发言人发言时,点击该发言人姓名(或者使用快捷键F1~F12),该发言人的发言内容前即会带上角色名称。

硬件自动角色分离

通过系统标配的双路声卡设备,可以识别2路麦克风的音频流,进行角色识别。

转写结果控制

系统提供转写结果控制的开关,可以控制是否显示转写结果,当关闭显示时,转写结果在显示界面不展示,在原始结果中仍然保存。

文本搜索

支持对转写内容进行搜索查找,查找到的结果会高亮显示,可以使用ctrl+F快捷键进行操作。

会议名称修改

可以对会议名称进行修改。

另存为

会议暂停和结束后可点击另存为将原始音频、编辑文档、原始结果、标记结果以及irec文件保存到目标路径下,默认全选,可根据实际需要选择需要保存的内容。

导出

听见智能会议系统(便携式)每隔5分钟会自动进行保存,还可以点击保存按钮进行保存,首次点击保存按钮时系统会提醒选择保存的路径并设置保存文件名。保存内容为音频加编辑文本的特殊格式.irec。

如在之前的会议中保存了.irec的特殊格式文件,则可使用听见智能会议系统(便携式)进行再次打开。点击打开按钮,选择需要打开.irec格式文件,可按照常规会议进行编辑。

快速排版

如***终的文本材料需要设置标题、页眉页脚等其他复杂的格式可以点击快速排版,在word中打开当前页面内容再进行排版编辑。

音频转写

音频转写主要用于对历史音频转写的场景,用户可通过录音笔、手机等手段进行录音,将音频数据导入录音整理客户端后,可进行快速转写;转写结果与音频可实现音字对应,支持对转写结果进行编辑整理。

系统支持***多每次上传50条音频,总大小不超过5GB,单条数据时长小于18小时;目前系统支持mp3\wav\pcm\wma\mp4\avi等格式的音频,上传成功后点击开始转写即可开始转写。


图片展示

联系我们

 

 

联系电话:020-85208548

传       真:020-85208549

电子邮箱: centz8@centz.com.cn

地址:广州市天河区华观路1933号万科云城B栋710室

  企业微信

 微信公众号

Copyright @ VillaGrandis All Rights Reserved  ICP备案号180006020号-3    网站地图

客服中心
电话
1234
二维码
扫码关注
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了
粤ICP备18006963号