<listing id="jnll3"></listing>
<var id="jnll3"><dl id="jnll3"></dl></var>
<var id="jnll3"><strike id="jnll3"><listing id="jnll3"></listing></strike></var>
<var id="jnll3"><dl id="jnll3"><progress id="jnll3"></progress></dl></var><ins id="jnll3"></ins>
<var id="jnll3"><strike id="jnll3"></strike></var>
<var id="jnll3"></var>
<ins id="jnll3"><video id="jnll3"></video></ins>
<var id="jnll3"><dl id="jnll3"></dl></var>
<var id="jnll3"></var>

智能會議系統技術方案(網絡版)

2020-08-12


 

 

 

智能會議系統

建設方案

 

 

 

 

 

 

 

 

 

 

 

20187

 

 

目錄

1. 項目概述 1

1.1. 建設背景 1

1.2. 建設重要性 1

2. 建設內容及目標 3

3. 總體架構設計 4

3.1. 邏輯架構 4

3.2. 物理架構 5

3.3. 業務流程 7

4. 施工環境要求 10

4.1. 整體要求 10

4.2. 詳細要求 10

5. 建設方案 12

5.1. 建設原則 12

5.2. 軟件部分 13

6. 售后服務體系 20



1. 項目概述

1.1. 建設背景

隨著信息代的到來,海量語音的獲取和存儲能力愈發強大,基于會議辦公的實際場景,會存在需要大量的人力投入、工作效率不高的情況、語音技術在會議場景中的應用質量和效果不高。同時,每年有各種類型的會議需要舉行,包括視頻電話會議、專題辦公會、匯報演講會等多種會議類型,其中大都需要進行會議紀要的整理與輸出。當前會議錄音整理,會議紀要編輯耗時長,強度大,重復性強,占據了工作的很大一部分時間,給從事此類工作的秘書和文員造成了一定的困擾。

結合日常辦公現狀,當前各類型會議,特別是重大、大型會議,需要指派專職會議記錄人員全場記錄,而大部分會議介于涉密等原因,只能依靠內部人員進行記錄。很多重要會議具備時間長、信息量大、紀要輸出嚴等特點,這對會議記錄人員提出更高要求,會議記錄和整理的工作強度大,且仍可能存在信息遺漏或會議思想理解偏差等問題,亟需得到解決。

1.2. 建設重要性

語音識別(Speech Recognize )技術,是讓機器通過識別和理解過程使之聽懂人類語言的技術。語音識別技術是信息技術中人機交互的關鍵技術,目前已經在呼叫中心、電信增值業務、企業信息化系統中有了廣泛的應用。隨著語音識別在語音搜索、語音控制等全新應用領域的深入應用 ,語音識別技術被業界權威人士譽為有可能引發人機界面領域革命的關鍵技術。近年來,語音識別技術取得了長足的進步。智能會議系統是基于語音識別技術所研發,可滿足視頻會議、會議演講、會議研討、溝通交流、大型會議等一系列需要進行實時文字轉寫的場景。

本次建設智能會議系統項目,主要解決純語言交流場景下容易造成信息偏差、會議記要整理工作量大、重要會議信息得不到體系化管控等問題。項目建成后即可使用,每次會議完成后短時間內即可完成所有相關會議記要的整理工作,同時,每一個人的發言均可記錄在紀要當中,可有效減少因不同原因造成的會議精神理解的偏差,提升紀要整理的效率。

此部分項目的實施,對辦公信息化水平革新具有戰略性意義

1)通過語音+文字的雙重信息輸入,加強與會人員對會議精神的理解程度,提升會議成果

2)降了會議記錄人員的工作強度和難度,提升了他們的工作效率和工作成果的準確性;

3)智能會議產品的應用,可以大大縮短會議紀要輸出周期、會議信息檢索時長,降低人員及時間成本;

4)系統提供對會議的統一管控,通過信息的積累,有助于會議知識庫成果的建設與應用。

2. 
建設內容目標

本項目基于私有云搭建網絡版智能會議系統,完成8個終端會議室的接入,實現目標場所內辦公會議、視頻會議、演講匯報、交談討論等會議場景的語音文字化處理。

本期應用建設目標是為建設面向海量會議語音的智能會議轉寫應用系統,能夠通過語種識別技術,智能識別海量語音的語種,實現會議過程中音頻實時轉寫成文字,會議過程中快速記錄,會議結束后及時成稿的功能,在整體上打造樣板化智能語音轉寫會議室。

后續規劃建設將結合語音識別、大數據挖掘、語音檢索等智能語音技術,進一步挖掘海量會議語音多維度信息,進而實現按多維度信息的檢索,并支持語音快聽、出材,最終達到大幅提升會議工作效率及能力范圍的目標。

3. 
總體架構設計

3.1. 邏輯架構

智能會議系統采用分層的方式設計與建設。系統邏輯架構上共分為三層:基礎設施層、平臺層、應用層。

基礎設施層提供基礎計算能力、存儲能力、網絡支撐能力,保障整個系統安全、穩定、高效運行。

平臺層提供中文語音轉寫、全文檢索等智能語音與基礎業務能力。

應用層針對中文語音轉寫提供控制管理終端實現對系統以及業務的管理,屏幕顯示終端實現會議過程中結果展現給參會人員的功能;音頻采集服務通過聲卡、麥克風等硬件設備完成音頻的實時采集。

系統的邏輯架構如下圖所示:

 

3.2. 物理架構

智能會議系統由多個服務端集群和部署在不同場所的終端設備構成。

服務端主要包含:中文轉寫引擎服務、應用服務器、分布式文件存儲服務集群、全文檢索服務集群。具體來說,中文轉寫引擎服務集群用于部署中文轉寫引擎,提供中文語音轉寫能力;分布式文件存儲集群主要用于音頻文件的存儲;全文檢索服務集群用于部署全文檢索服務,提供全文檢索的能力。

終端設備一般包括:PC工作站、展板客戶端、大屏幕、聲卡以及麥克風。具體來說,聲卡與麥克風用于完成語音的采集;PC工作站提供工作界面供用戶完成系統的使用與管理工作;大屏幕用于向參會人員顯示中文處理結果。

說明:

1號服務器為應用服務器集群,采用兩臺服務器的容災設計,主要部署智能會議系統業務服務以及用戶管理服務,用于提供會議管理和會議操作以及用戶相關的管理和設置能力。

2號服務器為轉寫引擎集群,采用兩臺服務器的容災設計,主要部署核心轉寫引擎以及引擎服務,提供音頻到文字的轉寫能力。

3號服務器為分布式文件存儲(FastDfs)集群主節點和分布式全文檢索集群(Elasticsearch)副本,提供音頻的分布式存儲能力以及主要轉寫內容的副本的存儲和全文檢索能力。

4號服務器為分布式全文檢索(Elasticsearch)服務器主節點以及分布式文件存儲(FastDfs)集群副本節點,提供轉寫內容的主存儲和全文檢索能力以及音頻文件的存儲副本。

3.3. 業務流程

每個會議室需要配備展板服務器、聲卡、客戶端筆記本等終端設備,通過與會議室內已有的音響系統、投屏設備進行連接,實現現場會議、視頻會議等會議場景下的語音采集轉寫、上屏展示能能力。會議室的設備連接圖及數據走向,示意如下:

 

流程說明:

主流程:在會議開始時,智能會議客戶端發送命令給服務端開始會議,服務端通知展板端的錄音服務開始錄音,服務端接受錄音服務發送的音頻流開始轉寫并把轉寫結果發送給展板客戶端和智能會議客戶端。

聲音收集流程:展板端錄音服務通過聲卡在調音臺獲取音頻并對音頻進行處理后發送給服務端進行轉寫,其中聲卡和調音臺之間用音頻線(6.5mm轉3.5mm)連接、展板電腦和聲卡之間用USB線連接,展板電腦和服務器之間通過網絡進行傳輸。

文字編輯流程:用戶通過智能會議系統客戶端界面進行文字編輯,智能會議系統客戶端將編輯后文字通過網絡同步到服務端。

每個會議室需要配置包括聲卡、展板服務器、KVM控制臺、智能會議客戶端電腦等終端設備,各設備的作用說明如下:

聲卡:通過調音臺收集發言人通過麥克風發出的聲音,并將聲音的模擬信號轉為數字信號傳給展板端的錄音服務。

展板服務器:用于部署錄音服務和展板客戶端應用,在有上屏需求的情況下,與投影儀或電視通過VGA或HDMI視頻線進行連接,負責收取聲卡傳送的錄音數據,接收智能會議客戶端提供的轉寫結果信息,實現實時上屏展示。

KVM控制臺:為了方便用戶對展板端服務端進行查看和編輯, 與展板客戶端配合展示轉寫結果,接收智能會議客戶端的音頻轉寫結果,通過投影儀將轉寫結果展示在大屏幕上,實現現場實時上屏。

智能會議客戶端:用戶通過智能會議客戶端進行會議的管理、關鍵詞和禁忌詞的添加、會議內容的編輯主要包括:一是控制實時會議開始、暫停、結束,會議列表查看,會議內容和音頻導出;二是會議內容編輯、關鍵詞和禁忌詞的添加;三是實現導入文件轉寫。

4. 
施工環境要求

本項目是基于專網搭建的私有系統,需要滿足一定的場地環境及網絡基礎,且系統的應用要會場內的音視頻設備連接、滿足前端收音和上屏展示需求。

4.1. 整體要求

環境指標要求

網絡

網絡帶寬100M以上

網絡延遲<=100毫秒

網絡丟包<=0.01%

客戶端和服務端之間網絡互通(全雙工)

電源

服務器:AC220V 1500W

展板端AC220V 500W

機柜

服務器:高度:2U、深度:800MM

展板:高度:3U、深度:500MM

音頻接口

需提供一路音頻輸出接口,支持:卡儂公、大三芯、雙蓮花

視頻接口

需提供一路視頻輸入接口,支持:HDMI、VGA

音頻質量

背景噪音 < 50分貝,會議室混響T60 < 1.5秒

4.2. 詳細要求

4.2.1. 機柜及電源

智能會議系統網絡版采用專業選型的服務器硬件形態,其中服務器每個占約1U的空間,同時要滿足AC220V、1500w 電源要求。

部署在會議室中的展板端需要3U空間,用于放置展板端及聲卡,安裝于正常室內機柜,設備深度為500MM,同時需要500W電源。

4.2.2. 網絡環境

本項目為網絡版部署架構,服務器部署在中心機房,展板、主控端部署在會議室,使用專有網絡,會議室需要為展板、主控端提供兩個網線,并保證兩個網線和服務器之間網絡互通(全雙工),網絡帶寬要求100M以上,網絡延遲<=100毫秒,網絡丟包<=0.01%。

4.2.3. 音視頻接口

該系統是基于音頻基礎上實現語音轉寫,麥克風等音響設備利用會議室現有環境。為實現對現場音頻的采集,需要現場音響設備(調音臺或相關音頻設備)提供一路音頻輸出供轉寫,同時設備接口支持卡儂公、大三芯(6.5)、雙蓮花輸入。

如有展板上屏需求,需要會議室內配有投影儀或者電視機,且具備VGA或者HDMI接口任意一種,展板通過連接投影儀或者電視機進行投屏展示。

5. 
建設方案

5.1. 建設原則

為確保實現智能會議平臺建設目標,充分發揮語音核心技術能力,系統在設計時須遵循如下原則。

1)標準化設計

系統設計需采用的各項軟、硬件設備、技術等均應符合國際通用標準,符合開放性原則,使用的技術要與技術發展的潮流吻合,保證系統的開放性和技術可伸性,與未來技術發展應具有良好的兼容性。

2)模塊化設計

系統應采用模塊化設計方式,并對大部分功能實現插件化管理。平臺中各個服務和模塊的設計都采取“高內聚、低耦合”的原則。每個服務和模塊都應當是能夠獨立運行的模塊,模塊和服務之間通過基于業務的標準接口進行互聯,杜絕了模塊的復雜依賴關系。

3)界面友好性

系統交互界面應采用“以任務為中心”的方式設計,系統所有主要功能采用統一形式展現,不同應用群體均能方便操作使用。對于復雜的應用,系統采用圖形化等符合用戶思維方式的直觀形式設計,使得極其復雜和枯燥的數據操作界面變得簡單直觀,大大降低了用戶使用各種復雜功能的難度,提高了功能的使用頻率。

4)穩定性設計

系統在設計過程中,應根據模塊和服務的功能、重要性等分別采用容錯、備份等技術,以保證局部的錯誤不影響整個平臺的運行。

5)安全性設計

為保證系統后續使用的安全,在設計過程中需要考慮物理安全、網絡安全、數據安全、應用安全。物理安全包括物理位置的選擇,物理訪問控制,防盜竊和防破壞,防雷擊,防火,防水和防潮,防靜電,溫濕度控制,電力供應,電磁防護。網絡系統的安全需求包括網絡邊界安全需求、入侵監測與實時監控需求、安全事件的響應和處理需求分析等幾方面。應用系統安全包括身份鑒別、訪問控制、通信完整性、通信保密性、抗抵賴、軟件容錯、資源控制、代碼安全。數據安全根據數據的產生,傳輸,存儲,消亡環節,對數據采用相應的安全保護措施。并根據數據的重要性采用合適的保護手段。確保數據的完整性、保密性,并做系統數據備份和恢復,保障系統的整體安全要求。

5.2. 軟件部分

本項目軟件部分的建設內容包括:中文語音轉寫引擎、智能會議系統的建設。

5.2.1. 核心引擎建設

智能會議平臺需要解決語音轉換成文字的問題。機器語音識別技術是一種實現從“聲音”到“文字”轉換的技術,通過將人的語音直接轉換成相應的文本。語音識別技術的研究工作開始于上世紀五十年代。Bell實驗室的研究人員利用模擬元器件提取了語音信號元音共振峰頻率變化的信息,有史以來第一次實現了識別十個英文數字的語音識別系統-Audry系統。八十年代,Bell實驗室的Rabiner等科學家將原本艱澀難懂的隱馬爾科夫模型(Hidden Markov Model-HMM)理論工程化,形成了較為完善的概率統計模型體系,識別性能也得到了很大的提高。2006年以來Deep Learning理論和技術成為了模式識別領域的一個熱門研究方向,G. E. Hinton等深入研究了深度置信網絡(Deep Belief Network-DBN)以及深度神經網絡(Deep Neural Network-DNN)等模型結構,微軟通過與Hinton合作率先將DNN應用于語音識別任務,識別性能取得了顯著提升。此后谷歌、蒙特利爾,以及IBM又將循環神經網絡(Recurrent Neural Netwok-RNN)成功應用于語音識別領域,特別是長短時記憶(Long-Short Term Memory)神經網絡結構,取得非常出色的語音識別性能。加上目前圖形處理器(GPU)計算能力的提升,以及互聯網時代大規模標注數據獲取成為可能,基于深度學習的語音識別技術已經在多個領域達到實用水平。

傳統的語音識別技術主要用于解決人與機器的交互問題。而在會議場景需要需要轉成文字的音頻內容是人與人之間交互,智能會議平臺需要基于機器語音識別技術構建語音轉寫引擎。智能會議平臺構建的語音轉寫引擎需要能夠實時、高效的把人與人之間交流的語音轉換為文字的能力,具體包括中文語音轉寫引擎與英文語音轉寫引擎,本系統需要完成中文語音轉寫引擎的建設。

5.2.2. 應用功能建設

5.2.2.1. 用戶管理

智能會議系統采用賬號密碼登錄,在提升用戶安全體驗的同時,分賬號進行管理;系統可根據需要配置提供管理員賬號和普通賬號,管理員賬號可查看全部列表內容,普通賬號僅支持查看當前賬號下的內容。不同賬號間的數據進行邏輯和物理隔離,保證數據安全性和私密性;滿足用戶不同用戶、不同權限的管理需求。

5.2.2.2. 音頻采集處理

智能會議系統需要通過對實時音頻流信號的處理完成從信號獲取、轉換、處理、識別、輸出、展示等一整套流程動作,需要由強大的音頻采集處理模塊。系統講通過使用特定的錄音服務,通過麥克風收集后,送達后臺服務端完成編碼工作,實時上傳到系統,供后續的轉寫文字等功能使用,同時保存到內容管理模塊中。

5.2.2.3. 實時語音轉寫

系統通過專業麥克風對會議全程進行高保真錄音,并針對連續中文語流進行實時語音轉寫識別,并持續進行轉寫結果文本內容的輸出。

5.2.2.4. 歷史語音轉寫

相比于實時語音轉寫模塊,歷史語音轉寫模塊提供對于已經錄制好的歷史音頻需要轉寫情況下的解決能力;用戶可以通過系統提供的功能按鈕,導入歷史音頻并實現快速離線轉寫;支持音頻批量導入。 

 

1 歷史音頻轉寫編輯效果圖

 

5.2.2.5. 內容編輯

在實時語音轉寫過程中用戶可以實時對轉寫出的文本結果進行編輯,并進行重點內容標記。在實時編輯的過程中采用延時播放的策略,用戶可以在查看到轉寫文本之后及時根據聽到的音頻進行文本校對編輯。用戶也可不戴耳機直接聽現場的實時音頻。支持選擇查看原始結果,對比修改,方便快捷,會議結束后即可直接成稿,并根據重點內容,整理導出會議紀要。具體功能包括:

延時播放:在實時語音轉寫過程中,識別結果展現之后再開始連續播放音頻,即用戶在看到轉寫文本的時候,同步聽到對應的音頻,使得校對和編輯更加便利。

重點內容標記:在實時語音轉寫過程中或者暫停和結束時,用戶均可以選中文本來進行重點內容的標記,已標記的文本也可以進行修改和標記取消,方便整理會議紀要,會議結束會后即可或直接成稿。 

音字對照:在實時語音轉寫暫停的時候,用戶如果對于有些內容沒有聽清,對于文本內容不確定的情況下,雙擊原始結果即可聽到文本對應的音頻,方便用戶對寫結果進行編輯,尤其是不小心誤刪除了編輯文本,可以通過回聽原始結果來進行回溯。實時語音轉寫結束狀態時, 原始結果及編輯結果均可雙擊進行音頻回聽。  

 

2 實時語音轉寫效果圖

5.2.2.6. 效果優化

在實時語音轉寫過程中,智能會議系統通過提供語氣詞過濾、自動分段等功能自動優化文字轉寫和顯示結果。具體包括:

自動分段:在會議內容實時語音轉寫成文字的過程中,為了方便用戶編輯何查看,系統提供根據VAD+固定字數和 VAD+固定關鍵詞兩種自動分段方式。系統提供 最佳的默認自動分段方式,用戶也可根據實際情況進行設置。 

語氣詞過濾:用戶可以在實時語音轉寫開始前或者進行文稿整理時可以根據需要選擇是否開啟語氣詞過濾按鈕,若開啟按鈕可將語氣詞和多余的詞匯去除,以保證文稿的規整。語氣詞過濾只針對新轉寫的結果,已經修改過的內容不支持過濾。 

關鍵詞優化:用戶可通過關鍵詞優化功能將此次會議相關的關鍵詞進行添加,能有效提升該關鍵詞的識別準確率。實時轉寫過程中用戶也可添加關鍵詞,并且可以實時生效,后續識別結果可得到有效優化。

5.2.2.7. 內容展示

系統通過提供展板上屏等形式進行實時語音轉寫結果的展示。具體功能包括:

實時上屏:通過展板上屏展示中實時語音轉寫結果。并且,字體顏色和展板背景顏色可以根據實際情況需要進行調整。

 

3 展板效果圖

上屏后臺修改:如果在實時轉寫過程中使用了實時上屏功能,希望保障上屏效果,那么可以使用上屏后臺修改功能進行展板端的結果糾正。在開始時點擊展板按鈕,調出展板,此時該展板端會同步出現識別文字。如果在轉寫過程中出現明顯錯誤或不適宜展示的詞語,則可以在主控端進行展板編輯,可以修改或刪除,修改之后按Enter 鍵則修改的內容會同步到現場的投影屏幕上。

5.2.2.8. 內容管理

所有通過智能會議系統轉寫的實時錄制的音頻文本數據和本地上傳的音頻文本數據系統都會以列表形式進行管理,后臺通過分布式存儲集群實現高效安全存儲,整個過程用戶無感知。用戶可以通過內容管理模塊隨時查看和編輯,并且可以根據名稱等信息快速檢索。此外,編輯后的全文本、重點文本以及音頻、某一角色的文本,用戶都可以快速導出,方便快捷。

5.2.2.9. 全文檢索

系統通過自然語言理解、語音識別和語義分析技術理解用戶意圖,執行用戶的檢索指令(包括語音、文本等),實現資源文本內容的語音搜索服務能力,不僅能檢索文本資源,也能根據文件名對音視頻內容進行搜索。該服務在傳統的文字輸入搜索方式基礎上,不僅能支持搜索語音時的相對自由表述,也應當能夠支持傳統文字檢索時的相對自由表述。

6. 
售后服務體系

我公司為本項目提供所售軟硬件終驗后1年的質保服務,具體售后服務內容承諾如下:

序號

服務

周期

項目

數量

1

質保服務

1

首次上門安裝、調試

1次

2

首次系統使用培訓

1次

3

通過軟件升級的方式提供效果優化

2次/年

4

提供更新后系統的使用培訓

2次/年

5

移機安裝服務

1次/年

6

設備保養或故障處理,提供遠程支持或上門服務

7*24小時

 


 


上一篇:無
本網站由阿里云提供云計算及安全服務 Powered by CloudDream