AIで作った音声アバターで母を騙してみた これが最新のフェイク技術だ

    BuzzFeed NewsがNetflixで配信中の「世界の“バズる”情報局」では、フェイクニュースのもたらす恐ろしい未来のようすを描いている。詳しくは、Netflixで。

    video-player.buzzfeed.com

    今年2月に掲載されたフェイクニュースに関するアビブ・オバディア氏の記事は、本当に恐ろしい内容で、読んでいて震え上がってしまった。そこで、環境が次第に悪化するなか、今後数年間の状況を冷静に予想してもらうつもりで、偽情報の未来についてオバディア氏と話そうとした。ところが、オバディア氏の予想した未来は、はるかに厳しいものだった。その未来では、簡単かつスムーズに使える多種多様な技術により、人間の知覚を手玉に取って、現実を改変してしまう力が大衆化される、というのだ。オバディア氏は口をつぐみ、「本当に起きた出来事でもないのに、ある状況を事実だと誰でも示せてしまえる時代」に何が起きるか考えた。

    口を開いたオバディア氏から出たのは、「現実に対する無関心(reality apathy)」「人間操り人形(human puppets)」「情報の終焉(Infocalypse)」というキーワード。それだけでも恐ろしいのに、言及されたディストピア化へつながる技術のなかには、初歩レベルだが使えるものが存在するし、その一部はすでに出回っている。

    その技術とは、遊び半分で筆者の声を再現できてしまう人工知能(AI)技術である。筆者の声を誰よりも知っているはずの人物に聞かせて試したところ、完全に騙せるほどの出来栄えだった。その人物とは、筆者の母親だ。ここでは、声の再現手順を紹介しよう。

    詳しくは、BuzzFeed NewsがNetflixで配信中の「世界の“バズる”情報局」で。

    筆者の「音声アバター」は、「Lyrebird」というフリーソフトを使って作った。Lyrebirdは、話す際の抑揚と、母音および子音の発音パターンを解析し、話し方の特徴をそっくりまねたデジタル版コピーを作り出す。

    アバターの作成は、「パロディを見るってとっても楽しい」とか「エリックはビタミンを摂取して、決められたエクササイズを続けた」といったような、一連の日常的に使うフレーズを自分の声で録音して進める。

    Lyrebird

    音声アバターの作成時にLyrebirdから録音を求められるフレーズの例。

    十分な数のフレーズを読み上げると、LyrebirdのAIがユーザーの声をまねるデジタル版コピーを生成する。このコピーは、テキストボックスに入力された任意のテキストを、ユーザーの声で読み上げてくれる。

    Lyrebirdの開発陣は、このAIの能力を示すために、ドナルド・トランプ大統領の声をコピーした。

    LyrebirdAi / Twitter / Via Twitter: @LyrebirdAi

    悪くないレベルの音声アバターを作るのに必要だった作業は、60個ほどのフレーズを録音しただけで、約1時間しかかからなかった。この最初の段階だと、ロボットが話しているようで単調で完璧とは言い難いものの、筆者のコピーロボットのようではある。

    第1段階のコピーを聞いてもらおう。

    w.soundcloud.com

    それでも、音の高低や母音の発生といった基本的な要素は、担当編集者に「マジ!?」と言わせるほど似ていた。

    Slack

    さらに録音をすればするほどLyrebirdの作るコピーのレベルは向上し、特に抑揚などの細かな部分の品質が良くなった。ただし、全体的には粗削りなままだった。

    やや品質が改善した第2段階のコピーは、以下のような具合だ。

    w.soundcloud.com

    さらに1時間ほど録音を重ねて、ついに相当なレベルのコピーが作れた。

    w.soundcloud.com

    担当編集者とコピー作成作業について話しているうちに、これだけの品質ならば、警戒していない人になら筆者の「音声アバター」を筆者だと思い込ませられるのではないか、という考えに至った。その際、電話を使い、電波の悪いところからかけている、と言い訳するだけで済むだろう。

    Slack

    警戒しない人物として、筆者の母親が適任ということになった。筆者の声をとてもよく知っていて、騙すのが難しい相手だ。

    作戦実行に備え、ちょっとした電話のときによく使う一連のフレーズをテキスト入力しておいた。電話を長引かせては駄目だ。長い会話だと音声アバターのボロが出て、正体がばれてしまうだろう。母とはその晩ディナーを約束していたので、手短に予定を確認するための電話、ということにした。確認を終えたら、電波の調子が悪くなった風を装って電話を切る計画だった。

    Netflix

    大成功だった。実際の会話は、以下のビデオのようにつつがなく進んだ。

    video-player.buzzfeed.com

    言うまでもなく、これには驚いた。

    Slack

    Lyrebirdで作った声で母を騙せたうえ、それがAIの声だったと納得させるのも一苦労だった。母は後日「そんなことができるなんて知らなかった。これっぽっちも疑わなかった」と筆者に話したのだが、彼女にとって音声やビデオの操作は、実在の技術でなくSFのようなもの、ということを思い出した。

    現時点でLyrebirdの技術は、完璧にはほど遠い。しかし、気にならないレベルへと急速に進歩している。改善しつつあり、筆者の母親を騙せるレベルに達していた。これは恐ろしいことであり、Lyrebirdの開発陣も確実に認識している。

    Lyrebird公式ウェブサイトの倫理に関する見解を掲載したページで、次のように説明されている。「我々がこの技術を開示しないことにしたら、一体どうなるでしょう。ほかの人たちが同様の技術を開発するはずです。ただし、その人たちが我々のように誠実な意図で開発するとは限りません。たとえば、その技術を特定の企業や、悪巧みをしている組織にだけ販売する可能性があります。これに対し、我々は制限なく技術を提供しています。さらに、社会が受け入れて、メリットを良い行為に活用しつつ、悪用の芽を摘めるようにするため、段階的に提供していきます」(Lyrebird)

    ところが、音声やビデオの操作という危なっかしい分野で活動している企業は、Lyrebirdの開発陣だけでなく多数存在する。フェイクニュースのもたらす恐ろしい未来を理解しようと取材を開始し、人間操り人形、AI、ディープ・フェイク、デジタル・ハラスメントの世界へ深く入り込むことになった。●


    詳しくは、BuzzFeed NewsがNetflixで配信中の「世界の“バズる”情報局」で。

    この記事は英語から翻訳・編集しました。翻訳:佐藤信彦 / 編集:BuzzFeed Japan

    Charlie Warzel is a Senior Technology Writer for BuzzFeed News and is based in Missoula, Montana

    Contact Charlie Warzel at charlie.warzel@buzzfeed.com.

    Got a confidential tip? Submit it here