芝麻開門!”,輕巧的話語過後,重達萬斤的石門徐徐升起,
這樣的場景是否曾讓你訝異不已。人類從誕生的那一天起,就沒有停止過用語言去征服和改
造自然的夢想。隨著科學技術不斷發展,人類的這一夢想正在逐步實現。而“人機交互”正是
實現這一夢想的關鍵技術。
所謂人機交互技術,是指通過電腦輸入、輸出設備,以有效的方式實現人與電腦對話的
技術統稱。大家所熟知的人機對話模式如:PC的鍵盤滑鼠、掃描器、印表機等等,而人類
自然形成的溝通的認知習慣和形式,必定是這項技術未來的發展方向。微軟亞洲研究院主辦
的2003年“21世紀的計算”大會上,李開複博士在演講中說:“人類發明語言是希望通過語
言來溝通,人們也希望讓機器可以用同樣的方法與自己溝通。”因此語音交互將會成為人機
交互發展的主流趨勢。研究者們也正在努力讓未來的電腦能聽、能看、能說、能感覺,使這
項技術越來越智慧化。
實際上這項研究也已經取得了一定的成效,如捷通華聲公司在2007年,針對盲人、視
力障礙人士以及老齡人士等弱視群體開發了一款“盲人手機導航(Sbikit)”應用,該應用支
持使用者直接通過聲音與手機進行交流,弱視人群可以通過“聽”來獲取外界資訊,再通過
“說”對手機進行指令操作。這項方案被列入美國高通“無線關愛(wireless reach)”計畫,
是一個比較典型的智慧人機交互案例。可以說人機交互在逐步改善我們的生活,引領我們工
作和生活的方向。
語音交互技術包含兩項主要技術,語音識別和語音合成。
語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統,
20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統
的實用化研究投以鉅資。目前,語音識別技術在身份確認上的應用已經達到99%的準確率,
“芝麻開門”已經不僅僅停留在傳說之中。
如果說語音識別讓電腦長了一隻聽力驚人的“耳朵”,那麼語音合成就是讓電腦多出一張
能說會道的“嘴”來。語音合成的核心是文語轉換技術,經過200多年的研究和發展,這項
技術現已十分成熟,能夠使電腦的發聲接近真人效果,而應用的市場也隨著技術成熟逐步打
開,語音合成已經不僅僅停留在研究階段,它早已經邁出商品和實用化的一步,進入到了全
面產業化的水準。
相信隨著語音交互技術的發展,我們很快能夠見到這樣的場景,當我們要求“芝麻開門”
的時候,會有一個親切的聲音問起:“請問您是想要開前門,還是想要開後門……”不只是執
行,還有交互,這就是智慧人機交互技術的重要意義了。
智慧人機交互技術有著廣闊的應用前景,值得期待。