研究室公開

OPEN LABORATORY

ロボット・人工知能

09

音でつながる人と機械

豊かなコミュニケーションのための音声言語処理

伊藤(彰)・能勢研究室

EXHIBIT

オープンキャンパスでの展示

豊かなコミュニケーションのための音声認識,音声合成

マンガや映画の世界では、機械は人間の言葉を理解し、また人間と同じように話し、自然にコミュニケーションしています。 将来、私たちの身近にある機械やロボットには、人間と音声でコミュニケーションする機能が必須となるでしょう。 今回は、人間の言葉を理解するための技術(音声認識)、人間と同じように話す技術(音声合成)、それらを応用した音声対話技術の展示を行います。 また、声で操作するロボット、映画などで登場する他人の声を真似る声質変換技術、カラオケでの最深採点技術なども紹介します。

展示内容(予定)

・対話 ・音声合成 ・声質変換 ・声で動く機械

スマホアプリが研究室をナビゲート

SmartCampusへ

音声認識・音声合成

 音声認識とは,簡単に言うと人間の喋った言葉を文字列にする技術です.この音声認識を使うと,映画やニュースに自動で字幕をつける,喋ったり歌ったりしている内容から映像や音楽を検索する,人間の言葉を理解するロボット, 音声の自動翻訳などを実現することができます.
 音声認識では,音声の音響的特徴を表す音響モデルと,音声の言語的特徴を表す言語モデルを使用します.我々の研究室では,音声認識技術のさらなる高精度化や音声認識技術の応用などの様々な研究を行っています.
 
 音声合成とは,テキスト(文字列)から音声を生成する技術です.音声合成はカーナビの案内音声,バスや地下鉄などの公共情報案内など様々な場面で利用されています.従来の抑揚のないナレーションのような声ではなく,抑揚や,感情を込めたより人間らしい自然な音声を合成するための研究をしています.また,最近では音声合成の技術が初音ミクのような歌声の合成にも応用されています.表情豊かでより人間に近い歌声を合成するための研究も行っています.

音声およびマルチモーダル対話システム

 音声認識を応用した対話型システムの研究を行っています. この研究分野では単純に機械への入力を人間の声で行えるようにするだけではなく,SF映画に登場する機械のように, 人間の話すことを理解し適切な応対ができるシステムの実現を究極の目標としています.最近では音声認識を利用したアプリケーションを目にする機会も多くなりましたが, 残念ながら現状のシステムはまだ多くの人に受け入れられている状況にあるとはいえません. 今後音声アプリケーションの普及が進むためには,より柔軟で自然な対話ができることはもちろん, ユーザが使いやすい,使いたいと思うような音声対話システムを実現する必要があります.
 そのため,本研究室ではどのようにユーザとの対話を進行するかという対話の制御方法に加えて, 入力発話から得られた特徴をどのように利用するのか,システムの知識にあたるデータベースをどのように構築するのか, そもそもどのようにデータを用意するのか,といったことを中心として研究を行っています.また,より円滑な機械とのインタラクションを実現するため,マルチモーダルな情報(人の表情やジェスチャー等)を用いた対話や, エージェントを用いた対話の研究も行っています.

音声言語処理を応用した外国語教育システム

 近年の国際化とともに,英語を習得したいと考える人が増えてきています.さらに学校教育において,2011年度から小学校5,6年で英語の必修授業が始まるなど, 国としても早い段階からの英語学習を必要不可欠なものとしていることが伺えます.従来の英語学習では「読む」,「書く」能力に重点が置かれていましたが, 海外旅行やビジネスのような場面での英語を用いたコミュニケーションの機会は確実に増えてきており, それに伴って「聞く」,「話す」といった会話能力の重要性も高まってきています.これらの能力のうち,「聞く」能力に関しては,テレビやラジオの教育番組,CDやDVD教材の普及, インターネットなどによって,比較的簡単に訓練することができると言えます. しかし,「話す」能力については,例えば音読やシャドーイングといった方法にはフィードバックがなく, また,語学留学や英会話学校に通うといった方法も,時間や費用がかかるという問題があることから,気軽にできるとは言えません.
 このような背景により,コンピュータを利用して外国語を学習するCALL (Computer Assisted Language Learning) システムに期待が高まってきており,様々な研究がされています.本研究室では,CALLシステムに音声認識の技術を用いることによって,コンピュータとの対話形式で実践的な 「話す」訓練ができるようなシステムの研究を行っています. 学習者が発話した英文の中から文法的な誤りや発音の誤りを自動的に検出することによって, 効率的な英語の学習ができるようにすることを目指します.