語音辨識-簡介與整體運作架構

AI語音辨識,提供線上語音辨識服務,主要提供使用者以Restful API進行呼叫,依API文件描述依序進行API呼叫,協助使用者對音訊資料進行語音辨識,得到辨識後的文字結果。 此服務並不包含錄音功能,須由使用者自行開發錄音部分,本服務可支援streaming的辨識,在邊錄的過程可邊透過呼叫我們提供的API將音訊傳至我們的服務進行辨識,可節省反應時間。 支援的音訊資料格式每個sample需為signed short格式(pcm-16,16kHz格式),在不壓縮的情況以達到較佳的辨識效果。
AI語音辨識服務主要提供Restful API,一共包含三個功能:
註:若要進行語音辨識功能,需依序呼叫功能1,再呼叫1到多次的功能2來傳送音訊進行語音辨識。
序號 功能 簡述
1 connect
要求進行語音辨識,取得AsrReferenceId,以進行後續辨識
2 syncData
傳送音訊資料,進行語音辨識,可支援streaming辨識
3 stopRcg
若辨識過程中要中斷辨識,可以呼叫此功能來停止語音辨識
connect功能

要求進行語音辨識,取得AsrReferenceId,以進行後續辨識,此AsrReferenceId為功能2及功能3的必要參數,以此作為區分不同進線或是判定是否為有效id。
詳細參數設定及API呼叫請參考3.API文件說明。
syncData功能

傳送音訊資料,進行語音辨識,可支援streaming辨識。參數ByteNum,設定每次傳送之音訊長度,單位byte,建議值:4800。
目前支援pcm-16,16kHz格式之音訊及streaming辨識,可以邊錄邊傳,而每次傳送長度,需進行調教,來達到較佳辨識速度,建議值為0.08秒~0.15秒之間,所以4800byte則相當於4800/32000=0.15秒。
詳細參數設定及API呼叫請參考3.API文件說明。
stopRcg功能

若辨識過程中要中斷辨識,可以呼叫此API來停止語音辨識。
詳細參數設定及API呼叫請參考3.API文件說明。