OpenAI、ディープニューラルネットワークで音楽を生成するツールのプロトタイプを公開 19
ストーリー by headless
作曲 部門より
作曲 部門より
OpenAIがディープニューラルネットワークにより4分間の音楽を生成するMuseNetを開発し、これを利用した作曲ツールのプロトタイプを公開している(OpenAIのブログ記事、
The Vergeの記事、
VentureBeatの記事)。
MuseNetは数十万のMIDIファイルを使用して学習を行っており、音楽のスタイルや楽器、導入部で使用する既存楽曲を指定することで新しい音楽を作曲できるという。公開されている作曲ツールはMuseNetのオプションの一部のみが利用可能で、デフォルトではスタイルでショパンとモーツァルト、ラフマニノフ、レディ・ガガ、カントリー、ディズニーの6種類、既存楽曲で「トルコ行進曲 (モーツァルト)」「交響曲第5番 (ベートーベン)」「Poker Face (レディ・ガガ)」「エリーゼのために (ベートーベン)」「Someone Like You (アデル)」の5曲およびスクラッチで作曲する「None」が選択可能だ。生成結果はOGGファイルとしてダウンロードすることもできる。
Advanced Settingsを使用すると指定可能なスタイルが15種類、既存楽曲が12曲に増え、楽器7種類(ピアノ・ストリングス・管楽器・ドラム・ハープ・ギター・ベース)を指定可能になる。ただし、プロトタイプということもあって、指定した楽器が必ずしも使われるとは限らず、スタイルに合わない楽器を指定した場合は完成度が低下するとのこと。生成される音楽がどのようなものかは実際に聴いていただく方が早いが、単なる変奏曲のようになるものや、リズム感が変なものなど、何とも言い難い出来だ。特にスクラッチから作曲したものには微妙なものが多い気がする。作曲ツールはブログ記事内に配置されており、5月12日まで利用可能だ。
MuseNetは数十万のMIDIファイルを使用して学習を行っており、音楽のスタイルや楽器、導入部で使用する既存楽曲を指定することで新しい音楽を作曲できるという。公開されている作曲ツールはMuseNetのオプションの一部のみが利用可能で、デフォルトではスタイルでショパンとモーツァルト、ラフマニノフ、レディ・ガガ、カントリー、ディズニーの6種類、既存楽曲で「トルコ行進曲 (モーツァルト)」「交響曲第5番 (ベートーベン)」「Poker Face (レディ・ガガ)」「エリーゼのために (ベートーベン)」「Someone Like You (アデル)」の5曲およびスクラッチで作曲する「None」が選択可能だ。生成結果はOGGファイルとしてダウンロードすることもできる。
Advanced Settingsを使用すると指定可能なスタイルが15種類、既存楽曲が12曲に増え、楽器7種類(ピアノ・ストリングス・管楽器・ドラム・ハープ・ギター・ベース)を指定可能になる。ただし、プロトタイプということもあって、指定した楽器が必ずしも使われるとは限らず、スタイルに合わない楽器を指定した場合は完成度が低下するとのこと。生成される音楽がどのようなものかは実際に聴いていただく方が早いが、単なる変奏曲のようになるものや、リズム感が変なものなど、何とも言い難い出来だ。特にスクラッチから作曲したものには微妙なものが多い気がする。作曲ツールはブログ記事内に配置されており、5月12日まで利用可能だ。
予想に反して (スコア:1)
もしかするとAIの進化で仕事を奪われるのはクリエイターの方が先かもしれない
Re: (スコア:0)
昔から作曲できるプログラムは沢山あって珍しくはない、作曲はイメージと違ってコード進行とかが結構理論的なのでプログラムと相性がいい
が、誰かが深層学習を使って90年代風とかロボットアニメ風の聞いたことあるようなメロディーを無限に作り出すAIを作ることは出来るかもしれない
でもそれを楽曲にしようとすると音楽の知識が無いと無理なので今は難しいと思う
Re: (スコア:0)
視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。
音楽の知識を明示的に使おうが使わなかろうが、それが楽曲として完成度が高いほど、既存の何かを想起させることになるだろう。
Re: (スコア:0)
> 視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。
なぜでしょう?視覚と聴覚で何が違うんでしょうか?
例えば60秒の音声ファイルがあるとします。
CD音質だとすると、 16bit/ch * 44.1K * 2ch * 60 で約8400万ビットになります
つまり可能な組み合わせは 2^8400万。10の2500万乗ぐらいの数です
一生かかっても全パターンを聴くことはできません
まだ聞いたことのない音楽がたくさん存在するとおもいます。
Re: (スコア:0)
> 視覚と聴覚で何が違うんでしょうか?
この疑問自体はすごくいいと思うんだが、CD音質の例は微妙かな。
ラジオで聴いていた曲をCDで初めて聴いたときに、音質が良くなったとは思っても、聞いたことがないものとは思わないですよね。
Re:予想に反して (スコア:1)
それどころか、楽器を変えても、テンポを変えても、移調しても、「オリジナル」を認識できる。
一方で、(時間波形を)逆再生すると認識できなかったりする。
素人考えだが、声がコミュニケーションツールとしてヒト以前から発達していたのに対して、
コミュニケーションツールとして人体以外の視覚メディアを利用したのが最近であることが関係していると思う。
Re: (スコア:0)
イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。
あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
予想に反してって言うけどクリエイター分野というかPCで作れる分野はAIに取って代わられるって前から言われてるよね。
予想に反してるのはハードウェアの方が代替が難しい、人間の方が単価が安いって事の方で
その点ではブレードランナー2049はなかなか鋭いSFだったね。
Re: (スコア:0)
> イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。
> あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
「それっぽい」物が限度でしょうね。その「トッピング」をモデルに組み込む方法がさっぱりわからないから、データ集めてパターン認識させてるのが現状なので。適当にいくつも生成させて、その中から「トッピング」が載っているように聞こえるものを実際に聞いて探すぐらいが関の山じゃないですかね。
ゲームアプリ用の音楽とか店内用BGMなど、創作性は特に問われないような分野だと活躍できると思いますが、それ以外だと厳しいんじゃないですかね。
Re: (スコア:0)
感情とか意識とか身体性とかその人なりの記憶なんかが定義されていないと結局”それっぽいのをまとめた”ようにしか聴こえないと思う。
こういったものの正しい使い方は素材として使うとかアシスタントとしてして使うとかかな。
鼻歌は思いつくけど知識がなくてまとめられないとか。
でもそれっぽい曲が量産できた方が予算に悩むゲームプロデューサーなんかは喜ぶかもしれない。
ドラえもんの道具 (スコア:1)
音楽じゃないけど漫画をスキャンして、その作者の作風を真似て新作を作って印刷するやつありましたね。
藤子先生はすごいなあ。
Re:ドラえもんの道具 (スコア:1)
あの話は未来予想じゃなく、単に自分が欲しいものをネタにしたんじゃないかなー
Re:ドラえもんの道具 (スコア:1)
こんな終わらせ方じゃあ、後が困るじゃないか! なんという無責任なわしだ!!
Re: (スコア:0)
やあ、俺
Re: (スコア:0)
はあ…
Re: (スコア:0)
どうしたの?エッチな吐息漏らしちゃって
Re: (スコア:0)
誤爆かな?