日本語版のNotebookLMがリリースされた時に、以下の記事を書きました。
NotebookLMは、無駄に長文な私のブログを要約してくれるだけでなく、高度な検索もできて非常に役立っています。論文を入力した場合にも、ハルシネーションがほぼ無く質疑できるのが良いですね。
今では、NotebookLMがコーディングとチャットに次ぐ私の生成AI利用トップ3になっています。そして今回は、ブログを動画化することに生成AIを使ってみました。
─ 目次 ─
動画シフト
最近のインターネット界隈は、文字の文化から動画シフトが進んでいるようです。確かに、私も栽培系や筋トレ系の情報を得るときには、文字ベースの情報ではなく動画を視聴する方が多くなりました。畑仕事やトレーニングで体をどのように動かすのか、百聞は一見に如かずですからね。
これ以外にも、車でラジオ代わりに聞ける解説系/ニュース系の動画も重宝しています。聞くだけならPodcastでも良いですが、なにしろ動画サイトはコンテンツの質&量が圧倒的。皆が動画に集まるから、動画制作者がお金をかけてコンテンツを作り、更に人が集まるという循環が生まれ、動画シフトが加速している状況です。
そんな時代に、我がブログは完全に文字ベース。もちろん、世の中には文字のニーズも残っていますし、文章を書くことが苦でない性格なので、日記がてら続けているわけです。ただ、少しは時代の波に乗ってみようと思い立ち、ブログを動画化してみることにしました。
YouTubeチャンネルを用意する
動画サイトは、素人が作成した動画を投稿するならYouTube一択でしょう。10年前は他にも選択肢がありましたが、今ではネットワーク効果でYouTube一強と言っても過言ではありません。
ちなみに、私は2015年5月にYouTubeチャンネルを開設していまして、以前はピアノの練習動画なんかを習熟確認のために定期アップしていました。ですが、10年前は動画投稿に手間がかかり、次第にチャンネル更新が延び延びに…。当時もPC直結のUSBカメラがあればお手軽だったかもしれませんが、手持ちのデジカメで動画撮影していたため、動画の取り込みや音声結合など、かなり面倒だったのです。
さて、古いながらもYouTubeチャンネルは作成済みですので、今回は昔の動画を整理して、このチャンネルにテスト動画を投稿してみることにしました。
問題は動画の作成方法です。10年前のYouTuberデビュー(?)時も、結局は動画の作成が面倒になってやめてしまったので、今回はできるだけお金を掛けずに、そしてお手軽に作れる方法を検討してみることにしました。
今どきの動画作成は、やはり生成AI。では、何を使うのか…?
Sora?
今年2月15日に発表されたOpenAIのSoraが、今週(12月9日)に正式リリースされました。
発表から一般公開まで10ヶ月を要していまして、想像以上にプレビュー期間が長かった印象です。動画の影響力は文字より格段に大きく、OpenAIはチャットのハルシネーション対策以上に、動画生成のチューニングに労力を費やしたのでしょう。その影響か、生成できる動画に様々な制限が掛けられています。しかし、コイツは今後の動画作成のやり方を変える力があると思います。
とは言え、現時点でブログの動画化に向いているかといえば、そうではない。
まずデータソースとなるブログ画像と文章の入力ですが、画像はSoraのスタート画面の「Upload Image」から登録して、動きをつけるのは簡単でした。ただし、最大20秒までという制限があるのと、とにかく今はサイトの動画生成キューが混み過ぎて時間がかかる。
これで数分の動画を作るのは、忍耐力が要求されます。まぁ、ここは自動ツールを作れば、「ブログ画像をアップロード」~「ランダムに動画生成」を繰り返すことが無人化できると思います。
問題なのは文章。Soraにブログの文章をまとめる機能は無く、Sora以外のサービスで動画のための台本を生成する必要があります。その台本を20秒以内に区切って音声データを作ったり、先述のブログ画像を動画化したものとマージしたりする必要があります。
・・・うん、かなり面倒だな。これだと1ページ試したら力尽きそうで、とても長続きしそうにありません。
将来的にブログを動画化するようなニーズが増えれば、省力化された動画生成の統合環境のようなものが作られると思いますが、今はかなり手間がかかります。
ということで、Soraでのブログ動画化は一旦保留にして、将来のサービスのエンハンスを待つことにしました。
NoLang?
お手軽さを最優先にサービスを検討すると、AIスタートアップ「Mavericks」が提供するNoLangが出てきます。
このNoLangは、今年3月に日本発動画生成AIと銘打ってリリースされたサービスです。実は既にユーザ登録済だったのですが、無料クレジットで少し試した後は放置状態でした。
というのも、動画生成AIと謳っているものの、生成AIで動画そのものを生成しているわけではないからです。(何のこっちゃ)
少しNoLangで遊ぶと分かるのですが、生成AIとして動作しているのは文章の要約と音声化、あとはそれに合った画像(動画ではない)の生成のみ。BGMや背景は作成済みのテンプレートから選択し、動画はそれらを繋ぎ合わせているだけです。
もちろん、文章を要約して台本にしたり画像生成したりできて、ここには生成AIの技術が使われています。ただこれは既に枯れつつある技術であって、核心の動画生成は技術として世界に追いついていなかった。このため、当時は興味が薄れてしまったのです。
しかし、改めてブログの動画化という実用面で考えると、NoLangは技術面で最先端ではないものの、こなれた技術のため安定しており、そしてニーズに合致したサービスだったのです。動画作成の手番は非常に少ないし、なにより生成が圧倒的に速い。1つのブログページが数秒で動画になるのです。恐らくNoLangの設計者は、この使い勝手を考えて、生成AIの使いどころを厳選したんだと思います。
また、無料で動画が作成できることもポイントです。課金することで、1ヵ月に作成できる動画が増えたり、動画の背景を変えたり、アバターの絵を動画に入れたりできるのですが、標準機能のみで月3~4本のブログを動画化する程度なら、無料プランで対応可能です。これはテスト導入しやすい。ということで、今回はNoLangでブログを動画化してみることにしました。
なお、生成AIで作成した画像を使うのは、著作権的に微妙かもしれないという気がしていまして、今回はブログに掲載した写真や画像のみを指定して、動画を生成しています。つまり、生成AIを使っているのはブログ文章の台本化/音声化だけで、画像すら生成AIを使っていません。もはや生成AI動画と言えない気もしますが・・・まぁ良いでしょう。
ブログを動画化してみた
NoLangは簡単に動画を生成できることを売りにしており、作成手順をまとめる必要がないレベルでお手軽です。それくらい、誰でも簡単に動画が作成できます。
Chrome拡張をインストールすると、ブラウザでブログを表示した状態から、ワンクリックで動画が生成されて数秒後に動画の再生が始まります。
動画サイトにアップロードする時に注意するのは、自動生成の画像の権利関係と、投稿時にNoLangの著作権表示を入れることくらいでしょうか。
なお、NoLangの動画作成には一人語りモードと対話モードの設定があり、そこに登場するアバターも自由に選択することができます。今回は、会話形式の方が分かりやすいと思い、対話モードに設定してみました。アバターはデフォルトのままだと他の人と被りそうなので、NoLang推奨の組み合わせパターンの後ろの方の設定にしてみました。あとは、動画生成のテストと分かるように冒頭に注釈ページを入れたり補足を入れるなど、台本を少し調整しています。
動画作成のソースは、最近ブログ記事にした「SwitchBotのCO2センサで空き巣に不在がバレる?」と「JXVエアコンの故障で体感した設置位置の大切さ」です。これで3~4分の動画を生成してみました。
実際に見てみましょう。
音声は正直言って、ぎこちないです。英語の生成AI音声の品質に比べると、やはり日本語はもうひと頑張りといった印象です。AI界隈は日進月歩ですので、このあたりは将来に期待ですね。
音声に改善余地ありですが、長文ブログの内容が短時間にまとめられていて、動画としては見やすいです。NoLang、なかなかできる子。
もう1つのブログは、最初は一人語りモードも試したのですが、やってみると単調になりがちで、結局は1本目と同じく対話型の動画にしました。
こちらも音声のイントネーションが微妙な箇所があります。(アバターを変えてテストしてみた方がよかったか?)
ただし、内容としては長文ブログが要約できています。いやぁ、お手軽さがハンパない。
改めて、動画をWebアプリだけで簡単に作れてしまう時代になったことに驚きです。逆に言うと、こういう技術によって、今回のテストのようなジャンク動画が溢れてしまう問題も生まれそうですが、それを選び取ってくれるAIもできるはず。
この界隈は変化が激しいので、しばらく動画生成AIの動向を追ってみようと思います。
[追記] NoLang2.5で再作成
ブログをアップしようとした12月12日、MavericksからNoLang 2.5をリリースしたとメール通知が入りました。今週はGoogleもGemini 2.0を発表しましたし、怒涛のAI週間ですね。NoLang2.5のリリースノートには「感情豊かな最先端音声読み上げソフトのボイスを使用可能に」とありましたので、もしかしたら音声品質が上がっているかもしれません。これは、試してみるしかない。
確認すると、新たに6人のアバターが追加されています。新しいアバターを指定してブログから動画を生成し直すのが本来で、そうすると台本の言い回しも新アバター向けに最適化されます。ですが、今回は前動画との比較のためとクレジット節約のため、生成済の動画を編集ページで開き、アバターの音声を変えてみました。(うっかりBGMも変えてしまった…)
できればアバターの年齢は元動画に近い方が言葉遣いの違和感が無いのですが、新たな男性キャラが1種類だったため、おじちゃんキャラは諦めてお兄さんキャラになっています。
ボイス変更した動画がコチラ。
おぉ! メチャ自然になってるじゃん。
まだ若干の違和感はありますが、言われなければ人間がアテレコしたと勘違いするレベルです。(当然ながら私がアテレコするより1万倍良い)
いやぁ、最近の技術の進歩のスピードは本当に速い。こんなに動画が簡単に作れるようになったら、今後の動画業界はオーサリングのスキルは不要になって、今以上に内容と宣伝力の勝負に集中していきそうです。
ということで、私は内容の濃そうなブログネタを書き続けることにしたのでした。