音声入力はここまできたのか……。こちら、音声で入力した文章になります。
2月にリリースされたGoogleの「Live Transcribe」。これは、同社が培ってきた音声認識テクノロジーを使い、スマートフォンのマイクで話している人の声をリアルタイムで文字に変換するAndroidアプリです。
まだ、β版ですが任意でダウンロードでき、ひとあし早く音声文字変換技術を体験できます。

文脈を読み取って、適切な言葉に「修正」する

Live Transcribeは聴覚障害を持つGoogleのDimitri Kanevsky氏によって企画・開発されました。家族や孫娘と自由に日常会話を楽しみたい。この気持ちがアプリの根幹に活きています。
「一対一のコミュニケーションが自然にできるように心がけた」とし、0.2秒のレスポンスを実現。ほぼリアルタイムで書き起こしが可能です。
単なる言葉の羅列ではなく、文脈を反映した書き起こしに対応しています。
上のgifは太宰治の『朝』を読み上げた際に、Live Transcribeが書き起こしをしたもの。
途中で、意味を汲み取って「アクト」→「開くと」、「愚痴」→「口」に修正されています。
「リアルタイム文字起こし」はどうやって実現できるのか
Live Transcribeの言語識別には2つのレイヤーがあります。1つは端末上で犬の鳴き声、人の声、ガラスが割れる音をデバイス上で識別するもの。この上に、クラウド上でのスピーチの認識をかけあわせて、スムーズな音声認識を実現しています。

クラウド上での処理は3つの段階に分けられます。
1:Acoustic Model(青)
音の波形そのものを読み込み、発している言葉を「コの音」「ニの音」に近いとを判別する。これは言語が持つ音の最小単位「音素」として格納される。2:Pronunciation Model(黄)
音素を組み合わせて「単語」を認識し、予測する。「コ」の後に「ニ」が来れば、「コニ」という「言葉」として認識される。3:Language Model(赤)
「コニ」という言葉が「日本語」であればこの音声は「コンニチワ」と発しているのだと予測される。
知らない単語に遭遇した時、まず綴りを見てから、自分の頭にある言葉の辞書と照らし合わせて認識する。Live Transcribeは、このような人間の音声認識と同じ流れを則っているそうです。

また、Googleは2年前からAudio Setというサウンドクリップを公開しています。ここでは、800万超のYouTubeから10秒ほどの動画を抽出し、音楽、話し声、拍手、動物の鳴き声などをラベリングして、音声認識の機械学習の精度を高めています。
この技術は、YouTubeの字幕はもちろん、動画中の「(拍手)」などのキャプションが出る技術などに使われています。
こうした音声認識の機械学習の積み重ねが、Live TranscribeのようなGoogleのアプリに活かされているのです。
録音音源の書き起こし、同時通訳の展望も…?

現在はリアルタイムで音声を文字化する機能にとどまっているLive Transcribeですが、Googleによると今後は録音音源を文字化することも検討しているそうです。
今後、機械学習によって、声の高低、子供の声、高齢者の声の性質、スピード等を高度に認識するようになれば、複数人の対話の文字化も可能になるといいます。
グーグル翻訳もフリーで提供している同社は、今後同時通訳のビジョンも描いているそうです。同時通訳に関しては、「音声をテキスト変換する際のエラー」と「書き起こしたテキストを翻訳する際のエラー」の2つの発生しうる誤りを、どう克服していくのかが課題のようです。
また、現在は聴覚障害者に向けてリリースしたLive Transcribeですが、今後はビジネス向けにも使える機能を搭載したサービスも展開すべくGmailやGoogle Driveなどを開発したG Suiteと一緒に開発を進めていきたいとしています。