野尻抱介blog

尻Pこと野尻抱介のblogです

第86回音楽情報科学研究会SIGMUSスペシャルセッション「歌声情報処理最前線!」に行ってきた

 7月28日、筑波山麓のつくばグランドホテルで、掲題の発表を見てきた。音情研の学会発表を見るのは2年ぶりだ。前回のレポートはこちら>第75回音楽情報科学研究会に行ってみた。ボカロ界を震撼させた、“ぼかりすショック”の直後だった。どの発表も「みっくみく」で「ニコニコ」、こんな学会があったんだなあ、と驚いたものだ。分野としては 情報処理学会/音楽情報科学/歌声情報処理 という階層になる。

 今回の発表内容はこちら>IPSJ SIGMUS: 第86回音楽情報科学研究会 プログラム
 発表会は三日間にわたる。私が参加したのは初日の「歌声情報処理最前線!」だけだが、それだけでも盛りだくさんで、魔法めいた実演をいろいろ見聞きできた。

 レポートや動画のまとめ
 

 Sinsy(スライド)は歌詞と楽譜をMusicXML形式で渡すと合成音声で歌ってくれるシステムだ。VOCALOIDに似ているが、調整(いわゆる調教)は不要で、特定歌手の歌声が60曲ほどあれば、そこから特徴を自動抽出して歌い方を推定してくれる。推定には近頃よく目にするHMM(隠れマルコフモデル)が使われている。波形データを持たないので、VOCALOIDのようにストレージを大食いしないのも特徴だ。計算量にもよるだろうが、いずれ楽器や玩具などに組み込まれるかもしれない。

 VocaListener2、いわゆるぼかりす2も傑作だった。(スライド) 初代ぼかりすはユーザー歌唱の音高と音量を真似してVOCALOIDに歌わせるのだが、2では声色(こわいろ)も再現する。ここでいう声色とは物真似のことではなく、文字通り声の色、同じ歌手でも異なる情感になる表現要素のことだ。
 そこで今年発売になったばかりの「初音ミクAppend」をちゃっかり研究材料にしてしまったところが面白い。論文は難解でよくわからないのだが、無印ミクとAppendそれぞれにぼかりすで出力し、声色をフィットさせていったらしい。
 さらに無印ミクとAppendの差分を鏡音リンに適用して、「鏡音リン擬似Append」を作成するという、発売元が真っ青になりそうなこともしていた。ただし現状では不十分で、「スペクトル変形曲面の再推定が必要」とのことだ。

 全部紹介しているときりがないので端折るが、面白い研究はまだまだあった。「歌詞と混合音(ボーカル・伴奏が混合した音)を与えると、カラオケのように歌詞の現在位置を示す」「フラットな話し声を歌声に変換する」「混合音から歌手名を同定する」「曲名を与えると歌い方の似た歌手をリストアップする」「(カラオケ等で)歌唱をリアルタイム補正する」等々、コンピュータには不可能と思われていたことが続々と実現している。(スライド)
 カラオケ業界なら「今すぐ出してくれ」と言いそうなものばかりだ。そして、同じくらい需要がありそうなのはニコニコ動画でMAD動画を作っている人たちだろう。彼らなら少々の不具合などものともしないだろうから、βテストとして配布してみてはどうだろうか。
 Sinsyなどは「ニコマスPが欲しがるだろうな」と思ったものだ。ニコマス、いわゆるアイドルマスターMAD動画では、ゲーム内に登場しない歌とアイドルたちの映像を組み合わせるのだが、できればアイドル担当声優の声で歌わせたいはずだ。ニコマスPの中には既存の歌を切り貼りして別の歌を歌わせる猛者もいる>人力VOCALOIDとは (ジンリキボーカロイドとは) [単語記事] - ニコニコ大百科
 少し前、ボカロPと「歌ってみた」(ボカロ曲を人間が歌った動画)の歌い手さんの間で一悶着あった。その根底にはボカロ曲→「歌ってみた」という一方的な時間順序があるのだが、ぼかりすを使えば「歌ってみた」→ボカロ曲という操作も可能になるから、双方の立場が均等になるだろう。ただし、それでゴタゴタが解消するとは言い切れない。むしろ混沌としてきそうでもある。
 ニコニコ動画で既存の音源をそのまま使うと法的にはアウトだが、Sinsyの出力はJASRAC包括契約の範疇でセーフになるのだろうか? これもよくわからない。人間の歌から「歌い方」だけ抽出するなど前代未聞だから、法整備も判例もないだろう。そこはまさしくフロンティアで、SF屋としてはわくわくさせられる。技術的ブレークスルーが引き起こす混沌は、SFファンの大好きなもののひとつだ。

 思いつきだが、今後の音楽情報処理の発展を考えて、CDなどにカラオケバージョンだけでなく、ボーカルトラックも別途収録してはどうだろうか。紹介された技術のなかには、混合音からボーカルだけを取り出すシステムもあったが、まだ完全ではない。混ざりものなしのボーカル音声があれば、実にいろいろな加工ができる。たとえばVOCALOID化しなくても、その歌手の引退後に新曲を歌わせることが可能になるだろう。素材となるデジタルデータを保管しておけば、必ず未来への遺産になるはずだ。




 夕食のあとにざっくばらんな討論セッションがあった。研究者の方々に加えてクリプトンの伊藤社長、佐々木氏、ヤマハの剣持氏、ドワンゴの戀塚氏、木野瀬氏、伊予柑氏、ITmediaブログの松尾氏など、錚々たる顔ぶれが集まり、私も混ぜてもらって談論風発を楽しんだ。話題はさまざまだったが、「歌声情報システムにおけるキャラクターの必要性」という話が盛り上がった。
 「音声合成ができても、キャラクターがいないとどうも盛り上がらない」「これからの世代はキャラクターと歌声が分離されることに慣れるかもしれない」「フィットするキャラクターは自然にでてくる」「スキー場のマスク美人と同じで、声だけがあってキャラクターが隠れている場合、それは最尤値で補完される」「声と体型に相関はあるか」――などと語らううちに、「鏡音リン初音ミクより身長が低いのに体重が重い設定なのはなぜか」という問いを松尾氏が発し、クリプトンの佐々木氏より驚きの回答がもたらされた>鏡音リンの体重の謎について:CloseBox & OpenPod:オルタナティブ・ブログ
 そのほか、こんな提案もあった。「デジタルコンテンツの量は年々増えているのに我々の時間は一定だから、再生速度を上げるしかない。ニコニコ動画で年1%ずつ、こっそり再生速度を上げてはどうか」という。もちろん冗談ベースであるが、これにも研究があって、訓練すれば再生速度は2倍までいけるそうだ。
 こんな会話が午前2時頃まで続き、とても刺激になった。
 見たところ、この研究会を牽引しているのは産総研後藤真孝先生だ。ケレン味たっぷりに話題作りをして、学際的・対外的な目配りもする。目立つ雰囲気なので保守的な層からは後ろ指をさされがちなタイプ(実際そうかどうかは知らない)だが、私のような外部の人間にはまことにありがたい存在である。はやぶさプロジェクトチームもそうだったが、活き活きしている研究分野には必ずこういう人がいて橋渡しをしてくれる。また、こういう人がいないと研究シーンの存在そのものに気がつかないことが多い。
 初音ミクは触媒的ミームであって、この3年間でさまざまな人や集団が結びつけられてきたが、ここにもその例がある。この先SIGMUSから何が飛び出すか、刮目して待つとしよう。

VOCALOID2 HATSUNE MIKU

VOCALOID2 HATSUNE MIKU

初音ミク・アペンド(Miku Append)

初音ミク・アペンド(Miku Append)

VOCALOID2 KAGAMINE RIN/LEN act2

VOCALOID2 KAGAMINE RIN/LEN act2