RECENT ARTICLES 記事紹介

corevo for Driversのデモ(今年2月のR&Dフォーラム)音声言語識別技術も活用されている

連載「研究者」253 「音声言語識別技術」

NTTメディアインテリジェンス研究所

2017年7月17日(月) 3294号

NTTメディアインテリジェンス研究所音声言語メディアプロジェクト音声対話インタフェースグループ研究員の増村亮氏は現在、多言語コミュニケーションを支える音声言語識別技術の研究開発に取り組んでいる。現在NTTでは、音声認識や音声合成の多言語化を進めており、人間と人間、人間と機械の音声コミュニケーションサービスの領域で、グローバルに取り組めるよう研究開発を進めている。
とくに外国人の音声を認識する場合に、どの言語の音声認識装置で認識すべきか、自動で判別できるような音声言語識別技術の研究開発に注力している。
増村氏は「この領域に取り組むことで、訪日外国人向けに、発話した言語を自動で認識するアプリケーションもつくれるようになるし、また万国共通で利用されるサービスに組み込めば、言語を気にせず簡単にグローバルビジネスを展開できるようにもなる」とその効用を述べる。

技術的ポイントは、ディープラーニングを積極的に活用し、「深層再帰結合型ニューラルネットワーク」というモデルを用いて、短時間の音声区間ごとに、どの言語かをモデル化している点にある。短い区間ごとに、その区間がどの言語なのか、特定することを行う。具体的には、大量の言葉(日本語や英語など各国の言語)を用意し、それをディープラーニングでAIに学ばせることで、各々のモジュールをつくる。ただ、それだけでは、言語を精緻に捉えることができず、似ている言語の間で誤りが生じることもある。
例えば、スペイン語をポルトガル語と判断されることがある。
「そのため、われわれは、その揺れのパターンも言語の特徴とみなして、言語ごとにその変動パターンをモデル化している」と増村氏は説明する。
つまり、スペイン語の音声は、ときとしてポルトガル語と間違えることを含めて、シナリオにするわけだ。
換言すれば、どのような誤りを起こすのかということもディープラーニングで学ばせているのだ。「こうすることで、従来混同しやすい言語であっても、うまく識別することができる」(増村氏)。

すでに実用化の一歩手前まで漕ぎつけており、現状は利活用に向けた取り組みに注力。例えば、訪日外国人向けに駅や観光地などに設置されている端末に同技術のエンジンを実装し、どの国の人々でも利用できるアプリケーションなどの提供を考えている。また、日本人向けには、各地域の方言に対応し、どの方言で話しても、確実に音声認識サービスを快適に利用できる環境づくりを目指している。
学生時代はサッカーに熱中。大学4年になり、サッカー以外に熱中できるものを探していたときに、AIや音声コミュニケーション技術を知った。「おもしろくて、熱中できる領域だったので、研究者になることを決めた」という。大学院時代にNTTにインターンシップし、音声認識技術の高い成果に憧れ、入社を志望。ワークライフバランスを重視し「普段の生活が充実していると自ずと研究活動も充実する」と話す。趣味はサッカー、フットサル。NTT東日本のサッカーチームに所属し、フットサルはNTTテクノクロスの社員とよくやる。風呂で論文を読むのもよいリラックス方法だという。

ページトップへ

POINT OF VIEW ポイントオブビュー

採用情報

現在はありません。

お問い合わせ

TEL:03-5937-5480
FAX:03-5937-5476
Mail: info@denkeishimbun.co.jp

facebook