VOICEVOXとAivisSpeechキャラと一緒に!AviUtlを使った動画作成#2(音声生成編)

VOICEVOXとAivisSpeechキャラと一緒に!AviUtlを使った動画作成#2(音声生成編) 動画作成
VOICEVOXとAivisSpeechキャラと一緒に!AviUtlを使った動画作成#2(音声生成編)

VOICEVOXとAivisSpeechキャラと一緒に!AviUtlを使った動画作成 バックナンバー
https://www.simulationroom999.com/blog/with-voicevox-and-aivisspeech-characters-creating-videos-using-aviutl-backnumber/

はじめに

最近、動画作成についての問い合わせをちょいちょい受けている。
実際のところは、動画作成そのものというよりも音声の作り方とか立ち絵の使い方が多い感じ。

ぶっちゃけ私自身は素人であり、何かをレクチャーできる水準にいるとは思えないが、
素人であるが故に完全初心者に対しては扱いやすいネタももっているような気もしなくもない。

というわけで、私の一連の動画作成プロセスを暇を見つけながら書いていく所存。

今回はVOICEVOX、AivisSpeechによる音声生成関連について。

動画関連

動画作成に関連するYoutube動画

VOICEVOXで音声生成

VOICEVOXでの音声生成の話に入る。
基本的には事前に用意したセリフを入力していく感じ。
私は、テキストで保存したセリフをVOICEVOXへコピペしている。

実はコピペ以外にも入力手段がある。
VOICEVOXにはセリフテキストのインポート機能がある。
VOICEVOXの画面の以下の部分の「テキスト読み込み」になる。

VOICEVOX テキスト読み込み

のインポート用のテキストだが、書き方がある。
以下の書き方になる。

四国めたん,こんにちは。四国めたんです。
ずんだもん,ずんだもんなのだ。
春日部つむぎ,春日部つむぎでーす。

しゃべらせたいキャラの名前を書いて、カンマで区切ってセリフを入力する。
さらにもう少し調整が出来て、こんな書き方もできる。

四国めたん(あまあま),こんにちは。四国めたんです。
ずんだもん(ツンツン),ずんだもんなのだ。
春日部つむぎ,春日部つむぎでーす。

「あまあま」とか「ツンツン」ってのが増えた。
これは同一モデルの中でもスタイルを複数持ってるキャラに有効な設定。

ちなみに「春日部つむぎ」はスタイルが一つしかないため指定はできない。

話を戻すと、私はこの機能を使用していない。

次のプリセットの話との兼ね合いになるのだが、
私自身は状況に応じて話速、抑揚、音量を結構変更している。
テキストからのインポートでは、その部分の調整ができないため、
結局一つずつ調整になる。
手間としてはテキストからコピペしてもあまり変わらない状態になる。
これが理由で利用していない。

VOICEVOXのプリセット

先ほど少し出てきたプリセット。
名称としては、事前に設定済みの何かってことになる。

これは、VOICEVOXの以下の部分で切り替えるものになる

プリセット

何もしていない状態だと、「デフォルト」という項目が一つだけになるのだが、
私は以下6種類のプリセットを用意している。

  • 基本形
  • テンション低め
  • めたん脳内
  • ずんだ脳内
  • つむぎ脳内
  • ずんだ驚き

プリセットは、話速、音高、抑揚、音量、間の長さ、開始無音、終了無音の設定を保持するもの。
VOICEVOXのこの部分のパラメータになる。

基本形

デフォルトだと全部1になっている。
このプリセットだと、話速が1.1で少し早め、抑揚が1.2でやや強めに設定している。
これが四国めたん、ずんだもん、春日部つむぎが普通に話しているときの設定になる。
つまり、やや早口気味にしゃべらせている。

ずんだもん:
デフォルトだと全部1になっていた気がするのだ。

春日部つむぎ:
基本形というプリセットだと、話速が1.1で少し早め、抑揚が1.2でやや強めに設定していますね。

四国めたん:
私たちが普通に話しているときの設定になるわね。

「テンション低め」はこんな感じ。

テンション低め

音高が少し下げてて、抑揚が0.7で結構下げてる。
こんな感じの音声になる。

春日部つむぎ:
テンション低めってこんな感じでしゃべる時につかうものですね・・・。

ずんだもん:
音高が少し下げてて、抑揚が0.7で結構下げてる感じなのだ・・・。

「脳内」はこんな感じ

めたん脳内
ずんだ脳内
つむぎ脳内

四国めたん:
(めたん脳内はこんな感じよ。)

春日部つむぎ:
ずんだもん:
(脳に直接語りかけてくる感じで草。)

脳内は3人分に分けている。
理由は、脳内系はハモらせて使用することがあるのだが、
数値上は同じ1.1であっても、つむぎはかなり速く、ずんだもんはかなり遅い。
つまり、ハモらせるには実際の話速を合わせる必要があり、
それの調整用に個別に脳内を用意している。

最後に「ずんだ驚き」

ずんだ驚き

そのままの話でずんだもんが驚いた時のプリセット。
話速と音高が高めになっていい感じに驚いた雰囲気が出る。
こんな感じ

ずんだもん:
驚き役とかふざけんななのだ!

なぜ、ずんだもんだけ驚きというプリセットがあるかというと・・・。

驚き役というか、ぶち切れ役になるのがずんだもんだったため。
ずんだもん以外のキャラで驚くような声を使うシーンがあまりなく、
仮にそういうシーンがあったとしても、その場限りで設定を調整をしてしまうため、
ずんだもん以外の驚き用のプリセットを作ってない。

次のページへ

次のページでは、

  • 調整が悩ましい単語や文章
  • AivisSpeechで音声生成
  • Anneli向けプリセット
  • labファイル

コメント

タイトルとURLをコピーしました