2025ベストバイ動画更新→YouTube

GrokやDomoAIを使って実写みたいなMVを作る方法

当ページのリンクには広告が含まれています。
AI MV 作り方

少し前に「【動画生成AI】Nano Banana Pro→Veo 3.1→Suno AIでMVを作ったら楽しすぎた!」という記事を書きました。この時は歌っているボーカルの動きと音楽が合っていない状態でしたが、今回はリップシンクした、よりリアルな映像をAIだけで作ってみました。

リップシンクが完璧ではないので、多少の違和感を感じますが、数年前には考えられなかったクオリティの動画が完成して驚きです。参考にしたのは次の動画ですが、少しだけやり方を変えているので自分なりの作り方をブログにまとめておきます。

目次

Suno AIで楽曲を作る

歌詞やテーマに合わせたMVに仕上げるために、まずはSuno AI(有料プラン)で曲を作りました。設定は、90年代のバンドブームに現れたギャルバン「ザ・ハイ・ソックス」、曲調はホーンセッションを取り入れたスカパンクです。

曲ができたら、Suno AIの設定から、Get Stemsを選び、ボーカルとバンドの音を分けたデータをダウンロードします。(有料プランのみ対応)このデータは動画編集時に使います。

Grokで主人公を作る

まずは、主人公になるギターボーカルの女子高生の画像を作ります。どんなAIを使ってもOKですが、X(旧Twitter)のAI「Grok(Web版)」だと、一気に大量の写真が出力されるので、そこからMVに使えそうな写真を選べて便利です。

今回のプロンプトはこんな感じ。

90年代のバンドブーム時代に女子高生だった女の子、私立の制服でショートカット、メガネをかけています。ギターボーカルです。少し強気な表情ですが、子供っぽさも残っています。

出来上がった写真から選んだのはこちら。ギターを持っている手も自然だし、微妙にメガネが下がっているのもリアル。この女子高生を主人公にしたMVを作ることにしました。

Nano Banana Proで素材を作る

次に、GoogleのAI「Gemini(有料プラン)」の中から「Nano Banana Pro」を使い、先ほどの女子高生の写真をベースに、いろんなシーンを作ります。

Nano Banana Proを使えば、主人公の顔は同じで、さまざまな場面を生成できます。多少の違いはありますが、全く違う人みたいにはならないのが強いです。

出力された写真は4枚の写真がコラージュされた状態だったので、この写真を分割します。

写真を分割する

写真の分割は、いろんなやり方がありますが、ウェブで簡単に使える「imagestool.com」というサイトの「写真を分割する」という機能を使いました。ここに写真をアップすると簡単に分割できます。

4分割した写真を保存したら、その中から好きな写真を動画にします。

Adobe FireflyのVeo 3.1で動画生成

最初はGrokの動画生成機能を使いましたが、自分はAdobeに課金しているので「Adobe Firefly」の中にある『Veo 3.1』を使って動画を生成しました。

秒数は5秒とか10秒がありますので、リップシンクに使いたい曲のカットに合わせて選びます。

曲のカットですが、最初にSuno AIからダウンロードしたヴォーカルだけの音源を「オンラインオーディオカッター」などを使い、シーンごとにカットしておきます。

DomoAIを使ってリップシンク動画を作る

先ほど作った動画と短くカットした曲を「DomoAI」の「AIアバター」を使って、音楽と口の動きが合った動画を作成します。無料版でも動画は作成できますが、透かしマークが入ってしまうので、自分は有料プランに申し込みました。

こうしてAIへの課金が増えていくのですね…恐ろしい。

動画編集ソフトで仕上げる

AI MV 編集 Final Cut Pro

ここまでに作った音源や動画の素材を、動画編集ソフトに読み込み繋げていきます。歌詞を追加したり、色味を調整したり「Final Cut Pro」を使い仕上げました。

ベースになっている音源の上にリップシンクした映像を乗せるので「クリップを同期」などを使うと編集が楽になります。(さっき気づいた)

まとめ

自分はこれくらいで大満足の仕上がりですが、もっとリップシンクを完璧にしたり、3分近いMVを作ろうと思ったら、制作時間も増えますし、AIへの課金もマシマシになります。

今はまだ、複数のAIを使ってMVを作るのが主流ですが、来年には「音楽も動画もリップシンクも完璧に仕上げてくれるAI」が登場する気がします。マジでAIの進化は恐ろしいです。それじゃ!また!

SNSにシェアする
目次