（左から）真鍋大度、Dwango Media Village・廣芝和之

誰でも「理想の声」になれる時代がくる。音声合成技術の最先端と未来

2020年12月08日 18:00

ライゾマティクスの真鍋大度と100人の声に変化できるボイスチェンジャー「Siren Voice」を開発したDwango Media Villageの廣芝和之が、音声のもつ可能性について語り合った。

真鍋と廣芝がトークを展開したのは、12月6日（日）放送のJ-WAVEのPodcast連動プログラム『INNOVATION WORLD ERA』のワンコーナー「FROM THE NEXT ERA」。真鍋は同番組の第1週目のマンスリーナビゲーターを務める。

自分の声を理想の声に近づけたい―声変換ソフト開発のきっかけ

廣芝が開発した「Siren Voice」は、誰の声でも100人の声に変換できる声変換ソフトウェア。デモページが公開中だ。真鍋が廣芝に開発に至った経緯を訊いた。

誰の声でもいろんな声に変えられる声変換システムを研究開発しました。
また、品質を重視しつつ「誰の声でも」「様々な人の声に」するための課題と解決策を記事にしました。https://t.co/GKYklAb35K
（動画は開発者の声を声変換したものです。）#SeirenVoice #AIボイチェン pic.twitter.com/TZc5WYuRS1
— Dwango Media Village (@Dwango_DMV) September 14, 2020

廣芝：一般的に声変換はリアルタイム性を重視して、声のクオリティーをあまり高くできない仕組みになっています。でも、人はリアルな人の声になりたいだろうなと思い、リアルな声になれるソフトウェアをメインに開発しました。
真鍋：この100人は事前に音声をレコーディングしたりされたんですか？
廣芝：そもそも多くの人の声をレコーディングすることは難しいので、今回は研究用途に配布されているコーパス（データセット）をお借りしました。
真鍋：どんなきっかけやモチベーションから、このソフトウェアを開発したのでしょうか。
廣芝：3年半ほど前、VRがまだ流行っていなかった頃、「VRが流行ったら、おそらく人間は見た目を好きなように変えるだろう」と思ったんです。それができるようになったら、絶対に自分の声も理想の声にしたいと思う、と考えました。VRが流行るときには、理想の声になれる技術を作りたいと思ったことが開発のきっかけです。それから転々として、自分の声も好きなキャラクターの声に変えてみるなどして、今は品質が大事だよな、というところにたどり着きました。

「Seiren Voice」の操作方法は、「録音する」「音声認識されたテキストを修正する」「声を選ぶ」の3ステップ。今後はリアルタイムでの音声変換を目指しているという。

廣芝：リアルタイムじゃないと楽しくないというか、使いどころが限られてしまうので、リアルタイムにすることは必須だと思います。もうひとつ課題があって、表現豊かな声変換ができるようにしたいと思っています。たとえば、自分が笑ったら変換した声もちゃんと笑ってくれるとか、泣き声だったら泣いているように声変換されるとか、そういうことは重要だろうなと。そこもできていないので、やらなきゃなってモチベーションはあります。

音声合成技術でできること

廣芝は声変換の開発において、ディープラーニングの技術向上がブレイクスルーのきっかけになったという。

廣芝：グーグルが開発した「WaveNet」という新しい音声合成システムが、大きなブレイクスルーでしたね。それがあったおかげで、クオリティーが格段に上がりました。

この日のオンエアでは、真鍋が廣芝の音声変換技術を使って、J-WAVEナビゲーターのサッシャの声になり、番組冒頭のトークを展開していた。

真鍋：この音声変換は、どういった方法でやられたんですか？
廣芝：「Seiren Voice」という声変換システムのデモを公開しました。そのときに機械学習した100人の声と一緒に、101人目としてサッシャさんの声を入れて、一緒に機械学習をして作りました。
真鍋：僕も、（今回の声変換のために）ややこしい早口言葉みたいなものを読んだんですけど、あれが標準のコーパスを作るための文章なんですかね。とはいえ、2、3時間くらい頑張れば録れてしまう程度の分量でしたよね。
廣芝：そうですね。ひとつにつき4～5秒で100文を読んでもらうので、順調にいったら全部で45分くらい、リテイクも重ねると2、3時間くらいですね。それくらいで作れる時代になりました。音声合成の民主化というか、それはブレイクスルーだと思います。

音声合成の技術は、今のところ会話ベースでの活用がメインとなる。今後は歌を歌うといった使い方も出てくるのだろうか？

廣芝：やっぱり歌えるようになりたいですね。さっきも話したように、表現豊かに話せるようにもしたい。そこは平たい会話と違って難しい部分だと思います。そこを突破できればいいのですが、ひとつ解決するまでに4年ほどかかってしまうんです。
真鍋：僕は会話よりも音楽制作にどうやって応用できるのかを考えてしまうんです。ラップの声に使えるものが出てきたらいいなと思っています。
廣芝：「Seiren Voice」のデモが公開中ですが、自分の声とのコーラスに使用している方がいますね。コーラスは確かに面白いなと思いました。あとは合の手も面白いんじゃないかなと。合の手も、いきなり100人のエキストラのように出せると楽しいですよね。

廣芝さんは今後、自身の開発した音声変換システムをどのようなことに活用したいと考えているのだろうか。

廣芝：我々ドワンゴとしては、エンターテインメントでユーザーが作った動画や生放送をみんなで見られるようにすることに注力しています。そこを支援できるツールを作りたいなと思っています。たとえば誰でも声を変換して、その変換した声を動画で使うことができる。そんなことを目指していきたいですね。

音声変換の技術で世界を広げていく

「声と言えばラジオ」と話す真鍋は、音声変換におけるラジオの可能性に触れる。

真鍋：J-WAVEに残っている、これまでのナビゲーターの声の録音ってすごい量がありそうですよね。
廣芝：研究者として、そういうデータはお宝の山なんですよね。特に2人の人が話していて、それぞれチャンネルが分かれているデータはかなりレアなので、そのデータは見てみたいですね。
真鍋：ラジオは確実にそういうデータがたくさんあって、特に利用されないまま眠っているような気がするので。
廣芝：僕たちは、相手が話しているときは話さないようにするとか、そういう当たり前のことをやっていると思うんです。だけど、そこの空気感をつかむのは難しいジャンルになってくるので、そういったデータは大量に欲しいですね。

最後に、廣芝さんが、自身が描く音声変換の未来を語った。

廣芝：僕はアニメとかのキャラクターが好きなんです。声が変換できると、そういったキャラクターにみんながなれる。そのキャラクターの声で、自分が演技することが可能になります。そうなると、そのキャラクター自体の世界が勝手に広がっていくんです。ユーザーがそのキャラクターになって、自分で発信して世界を広げていく。初音ミクみたいなものが、いろんなところでできるようになることが個人的な夢ですね。そしていつか、命が感じられるようなキャラクターがほしいと思います。

廣芝さん今後の開発情報は、 AI ボイスチェンジャー「Seiren Voice」の公式Twitterまで。

番組は、J-WAVEのポッドキャストサービス「SPINEAR」でも聴くことができる。

・SPINEAR
https://spinear.com/shows/innovation-world-era/

『INNOVATION WORLD ERA』では、各界のイノベーターが週替りでナビゲート。第1週目はライゾマティクスの真鍋大度、第2週目はASIAN KUNG-FU GENERATION・後藤正文、第3週目は女優で創作あーちすとの「のん」、第4週目はクリエイティブディレクター・小橋賢児。放送は毎週日曜日23時から。

この記事の続きを読むには、
以下から登録/ログインをしてください。