我國漢字文化博大精深,雖然現(xiàn)在語音合成技術(shù)發(fā)展較為成熟,但仍無法做到100%的智能分析和識別,來滿足人們的需求習(xí)慣。
例如漢字“一”,在不同語境下有3種讀法,“一五一十”“一路平安”“一言為定”,大家可以讀讀看。
再例如數(shù)字“1”,電話號碼“010-62986600、15321801789”,日期“2018-01-01”,在電話號碼中大家習(xí)慣讀成“幺”,而在日期里又習(xí)慣性的讀成“一”。
這樣的場景還有很多很多,本文將向大家介紹在TTS芯片端,如遇到無法智能識別播報的情況下,利用“文本控制標(biāo)記”,使文本合成準(zhǔn)確率達(dá)到100%的。
我們以市場常見的TTS語音芯片VTX316為例,它支持10多種文本控制標(biāo)記,下面我們一一列舉,并加以說明。
控制標(biāo)記統(tǒng)一格式為“[XX]”,“XX”=標(biāo)記參數(shù),使用時只要將標(biāo)記放在需要調(diào)整的文本前即可。
1. 數(shù)字處理標(biāo)記[nX]
默認(rèn)設(shè)置下芯片會自動識別數(shù)字的含義,是按“號碼方式" OR "數(shù)值方式"進(jìn)行解讀
備注:“X”=0、1、2
[n0]=自動判斷
[n1]=按號碼方式
[n2]=按數(shù)值方式
舉例文本1:撥打62986600。有123公斤重。
說明:“62986600”會讀作“六二九八六六零零”。“123”讀作“一百二十三”
舉例文本2:[n2]撥打62986600。[n1]有123公斤重。
說明:“62986600”會讀作“六千二百九十八萬六千六百”?!?23”讀作“一二三”
2. 數(shù)字“1”的處理標(biāo)記[yX]
默認(rèn)設(shè)置下芯片會自動識別數(shù)字"1"的讀法,是讀“幺" OR "一"進(jìn)行解讀
備注:“X”=0、1
[y0]=讀成“幺”
[y1]=讀成“一”
舉例文本1:[y0]撥打010-62986600
說明:讀作“撥打零幺零,六二九八六六零零”
舉例文本2:[y1]撥打010-62986600
說明:讀作“撥打零一零,六二九八六六零零”
3. 標(biāo)點符號處理標(biāo)記[bX]
默認(rèn)情況下標(biāo)點符號的名稱是不進(jìn)行播報的
備注:“X”=0、1
[b0]=不播報標(biāo)點符號
[b1]=播報標(biāo)點符號
舉例文本:[b1]歡迎光臨,請進(jìn)!
說明:讀作“歡迎光臨 逗號 請進(jìn) 感嘆號”
4. 改變漢字讀音標(biāo)記[=X]
當(dāng)我們想改變原來漢字的讀音時可以用到這個標(biāo)記策略,比如更換一個字的發(fā)音或是多音字”
備注:“X”=要改變的讀音,格式為“漢語拼音”+“聲調(diào)”,聲調(diào)=1、2、3、4、5(輕聲)
舉例文本1:歡迎他們,歡迎他[=ni3]們,歡迎他[=wo3]們
說明:讀作“歡迎他們,歡迎你們,歡迎我們”
舉例文本2:解[=xie4]放濤用語音合成芯片,單位的單[=shan4]小虎也在用
說明:“解”會讀成“謝”,“單”會讀成“善”
5. 發(fā)音人設(shè)置標(biāo)記[mX]
VTX316TTS芯片支持8種發(fā)音人(音色),可通過[mX]標(biāo)記隨意切換。
備注:“X”=3、51、52、53、54、55、56、57,對應(yīng)的發(fā)音人如下
[m3]=曉玲,女聲(默認(rèn)設(shè)置)
[m51]=尹小堅,男聲
[m52]=易小強,男聲
[m53]=田蓓蓓,女聲
[m54]=唐老鴨,卡通聲
[m55]=小燕子,女童聲
[m56]=貝童,男童聲
[m57]=曉可,男童聲
舉例文本:[m3]你好,[m54]這是發(fā)音人設(shè)置的舉例。
說明:“你好”的發(fā)音人為女聲曉玲,“這是發(fā)音人設(shè)置的舉例”的發(fā)音人是卡通聲唐老鴨
6. 語速調(diào)節(jié)標(biāo)記[sX]
TTS芯片支持30級語速調(diào)節(jié)
備注:“X”=0~30,默認(rèn)設(shè)置為5,數(shù)值越大語速越快
舉例文本:歡迎使用[s10]宇音天下語音合成芯片
說明:“歡迎使用”的語速為5級,“宇音天下語音合成芯片”的語速為10級
7. 語調(diào)調(diào)節(jié)標(biāo)記[tX]
語音合成芯片可控制10級語調(diào)調(diào)整
備注:“X”=0~10,數(shù)值越大語調(diào)越高
舉例文本:歡迎使用[t8]宇音天下語音合成芯片
說明:“歡迎使用”的語調(diào)為5級,“宇音天下語音合成芯片”的語調(diào)為8級
8. 音量調(diào)節(jié)標(biāo)記[vX]
TTS語音芯片支持10級音量調(diào)整
備注:“X”=0~10,數(shù)值越大音量越大
舉例文本:歡迎使用[v8]宇音天下語音合成芯片
說明:“歡迎使用”的音量為5級,“宇音天下語音合成芯片”的音量為8級
9. 提示音處理標(biāo)記[xX]
語音合成芯片通常內(nèi)置多首提示音,例如"sound901",具體格式參芯片數(shù)據(jù)手冊。
備注:"X"=0、1
[x0]=不按提示音處理
[x1]=按提示音處理
舉例文本:[x0]sound901
說明:讀作“sound901”,會按照字母加數(shù)字的讀法播報
10. 中文拼音識別標(biāo)記[iX]
判斷是否將文本識別成拼音
備注:“X”=0、1
[x0]=不識別漢語拼音
[x1]=識別成拼音
舉例文本:[i1]歡迎shi3yong4宇yin1tian1xia4[i0]語音合cheng2系統(tǒng)
說明:讀作“歡迎使用宇音天下語音合cheng2系統(tǒng)”,“cheng2”會按照字母和數(shù)字逐字播報
11. 停頓(靜音)時間標(biāo)記[pX]
在有需要停頓的文本中插入該標(biāo)記,可靈活控制停頓時間
備注:“X”=停頓時間,單位毫秒(ms)
舉例文本:歡迎使用[p800]宇音天下[p350]TTS語音芯片
說明:播報“歡迎使用”后,停頓800毫秒,播報“宇音天下”,停頓350毫秒,播報“TTS語音芯片”
12. 恢復(fù)默認(rèn)合成參數(shù)標(biāo)記[d]
本參數(shù)標(biāo)記將合成參數(shù)恢復(fù)成默認(rèn)設(shè)置,除發(fā)音人標(biāo)記參數(shù)
舉例文本:[n1]123,[y1]010-62986600[d]123, 010-62986600
說明:讀作“一二三,零一零,六二九八六六零零,一百二十三,零幺零,六二九八六六零零”
經(jīng)過上面的介紹,在語音合成芯片端如何達(dá)到100%的準(zhǔn)確率,各位的思路是否已經(jīng)非常清晰了呢?
審核編輯 黃宇
-
芯片
+關(guān)注
關(guān)注
452文章
50206瀏覽量
420896 -
TTS
+關(guān)注
關(guān)注
0文章
41瀏覽量
10757 -
語音合成芯片
+關(guān)注
關(guān)注
0文章
17瀏覽量
7485
發(fā)布評論請先 登錄
相關(guān)推薦
評論