画像からリップシンク動画が作れるSadTalkerとは?
SadTalkerでは1枚の画像と音声データから、その音声に対応したリップシンク動画を作ることができます。
百聞は一見にしかず。まずは、どんなものか見てみましょう!
以下は私がSadTalkerを利用して過去にツイートした動画です。美少女の画像と口の動きがシンクしているのが分かると思います。
その他にも私は、SadTalkerを利用してエイプリルフールにネタ動画を作りました(※このアプリはネタです。本当は存在していないので注意してください!)
SadTalkerを使えば、面白動画をどんどん量産できます!すごい時代ですよね。
SadTalkerの公式サイト
公式のGitHubはこちら。
SadTalkerの使い方
SadTalkerはWebUIに組み込む方法があるのですが、まだバグが多くWebUIに組み込むのは少し工夫が必要なようです。
もしもWebUI上で操作したいという方はBD様の記事を参考にしてみて下さい。
今回説明するのは導入の手間がかからないHugging faceを利用して動画を作る方法です!
私が3月に投稿した動画もそのやり方で作っています。
それではSadTalkerで実際に動画を作る手順について解説していきます。
SadTalkerのHuggingFaceにアクセスする
以下のリンクからSadTakerのHuggingFaceにアクセスします。
こちらのHugging face上でアプリを動かすことができます。
画像をアップロードする
Upload imageから変換したい画像をアップロードします。アップロードする画像は背景がシンプルなリアル系画像だとうまく変換しやすいです。
音声をアップロードする
Upload or Generating from TTSから音声をアップロードします。音声データはVOICEVOXを利用して作ると簡単です。
設定する
Crop:写真の顔部分で切り取って動画を作る
Resize:画像をリサイズして動画を作る
Full:画像のフル尺で動画を作る
w/ Still Mode (fewer hand motion, works with preprocess `full`):手の動きが少ないモード。 fullを選択したときにチェックして使用。すでにクロップ済みの画像を使うときは顔の動きが少なくなるのでチェックを外そう。
w/ GFPGAN as Face enhancer:画像のぼやけを修正するモード。動画のクオリティが上がるけど時間はかかる。
Generateをクリック
これらの設定が完了したらGenerateをクリックすれば動画が作れます!
動画が完成するまで結構時間がかかるのでお茶でも飲みながらまったり待ちましょう。
もしいくら待っても終わらない場合は内部エラーが発生している可能性があります。もう一度作り直してみましょう。
完成した動画は右クリックから保存できます。
終わりに
SadTalkerはデモを公開しているので、画像や音声を持っていなくてもデモ版で遊べます。
デモ版を試したい場合は、下の方にスクロールしてExamplesをみてください。
中から好きなイメージをクリックします。
あれ…?
この画像どこかで見覚えがあるぞ…!?
なんだろう…と思ったら私が昔投稿した画像でした!
アメリカではAI画像には著作権がないようなので仕方ないのかな?
みなさんは必ずウォーターマークを付けましょう(笑)
海外の開発者にも認められた絶世の美女だったということで、今回のオチです(笑)
コメント