ITmedia 2019年02月11日
最近の音声テキスト変換技術はすごいです。昔は決算発表後の電話会見が
テキスト化されて公開されるのはライブ配信から4日後くらいだったのに、
今では数時間後には公開されます。
YouTubeの字幕も、Googleの公式チャンネルのものとかであれば、
公開の段階で字幕が付いています。
Googleさんが2月4日に発表したAndroidアプリ「Live Transcribe」
(日本では「音声文字変換」)の早期アクセスに申し込んでおいたら、
11日にインストールできました。
Google Playストアにも未公開版として公開(?)されています。
音声文字変換アプリは、文字通り、音声を文字にリアルタイムで変換して
字幕にして表示してくれる「ユーザー補助」アプリです。
耳が聞こえないあるいは聞こえにくい人との会話は、手話を知らない人の場合は
筆談になりますが、それをスマホの画面の字幕でらくちんにするわけです。
Googleアシスタントの聞き取り能力の高さは競合するデジタルアシスタント
の中でもダントツなので、期待できます。
さっそくインストールして使ってみました。
静かな部屋で、マイクに向かってゆっくりしゃべれば、
ほぼ100%正しく字幕になります。
しかも、実際にほぼリアルタイムです。
上のテキストをゆっくり読んだ字幕
上の画像のように、句読点は省略されますが、漢字への変換も適切です。
実はテキストを読み上げるとき、「がめんのじまくでらくにらくちんに」
とかんじゃったんですが、最初「楽に楽ちんに」と字幕が表示された後、
「字幕で楽チンに」と表示が変わりました。
とりあえず表示してからちょっと“考えて”修正している感じが、AIっぽいです。
コンテキストを解析して、言い間違いを修正してくれてるのです。
もう1つびっくりしたのは、固有名詞の変換の正確さ。
テレビの音声で試していたところ、「堺屋太一」や「辻村深月」
などの著名人の名前を正しく変換したのは、Googleさんなら
当然だろうと思いましたが、辻村さんの作品「かがみの狐城」をちゃんと
変換したことにびっくり。
ATOKの変換では「鏡の湖上」になるのに。
書籍タイトルもちゃんと変換
でもそういえば、スマホのGoogleアシスタントに「かがみのこじょう」
と言うとちゃんと「かがみの狐城」と変換してGoogle Booksの情報を
表示してくれるので、驚くほどのことではないのかも。
音声文字変換アプリはGoogleアシスタントと同じGoogle Cloudの
「Cloud Speech API」を使っているので、当然なんですね。
そう、Google Cloudを使うので、この機能を使うには
インターネットへの接続が必須です。
ところで、いくら便利でもプライベートな会話を字幕にするために
Googleのサーバに保存するのはちょっと嫌です。
プライバシーやGAFAによるデータ収集について世間が過敏になっている今、
Googleさんもそこは配慮しています。
マイクから入ってきた音声を、字幕に変換した後、サーバに
保存することはないと明示しています。
Google Playストアでも
「会話はあなたの端末上で安全にテキスト化されます」
と書いてあります。
しばらく使ってみたところ、まだ早期アクセス版ということもあり、
うまくいかないこともありました。
起動してから音声が始まるタイミングが悪いと音を拾ってくれなかったり、
アナウンサーではない気象予報士さんの淡々と続く天気予報で
入力がところどころ抜けたり、ずっと起動させておいたら
途中から反応しなくなったりしました。
試していたときの予報士さんは江戸っ子なのか
(江戸っ子の私の祖母は、私の名前「ゆきこ」を「いくこ」と発音していました)、
「ゆき」を「いき」のように発音するので「中心に雪」が
「中心に行き」になっています。
「ツモロースレ」というのは「積もる恐れ」です。
謎の「ツモロースレ」やところどころのはしょりが見える字幕例
また、まわりがうるさいとぐっと精度が落ちます。
耳が聞こえないと、なぜうまくいかないのかも分からないので、
周りがうるさいかどうかは画面右上の青い丸でチェックできるようになっています。
「バックグラウンドノイズ」の青い丸が「現在の音量」の
水色の丸と同じ大きさになると、入力できません。
複数の人が同時に話していたり、BGMが流れていると
いまひとつうまくいきませんでした。
周囲がうるさいかどうかがわかるインジケーター
音声文字変換アプリは現在、日本語や英語を含む70カ国語をサポートしています。
2カ国語までセットしておけますが、Google Homeのように
自動的に聞き分けるのではなく、画面の下をタップして切り替えます。
ChromeブラウザでYouTubeの英語の動画と日本語の動画を
別のタブで開いて同時に再生しながら、入力言語を切り替えてみたところ、
完全ではありませんでしたが、英語モードでは英語を、
日本語モードでは日本語を拾って字幕にしてくれました。
「日本語」をタップすると「English」に切り替わる
(その左は返事入力のためのキーボード)
早期アクセス版なので、長いスピーチを一字一句落とさずに
字幕にしてくれるわけではないですが、聴覚障害者との日常会話には十分使えそうです。
返事は画面の下に表示されるキーボードをタップしてテキスト入力できるので、
話すのが苦手な障害者の人は返事をテキスト入力できます。
返事を見せるために画面をいちいち相手に向けなくちゃいけないのは面倒なので、
例えば文字変換アプリをインストールしたスマホ同士を接続して、
相手のアプリ画面にリアルタイムで返事のテキストが
表示されるようにしてほしいです。
もう開発中かもしれませんが、フィードバックしてみようっと。
0コメント