調整が悩ましい単語や文章
テキストで入力して、VOICEVOX上で実際の音声がどうなるか確認ができるのだが、
結構な頻度でアクセント、イントネーションの調整が入る。
例を挙げていくと・・・。
つむぎが良く言うセリフになるのだが、

ダメってほどではないが、ちょっと妙な感じになる。
実際にはこんな感じに調整する

結構つなげてしまってシンプルしている。
次は、めたんが良く使うセリフになるが、

「通りよ」がずいぶん下がって聞こえる。
こんな感じに調整する。

かなり自然になったと思う。
細かく分けるより、思い切ってつなげてしまった方が自然になり易い傾向はある
のだが、
当然、それだとうまくいかないパターンもある。
例えば、
G検定に代表される、AI関連の解説では必ず出てくる、
「ニューラルネットワーク」

こんな一等地のような単語のアクセントがおかしいことになるのもめずらしい・・・。
アクセントの位置としては間違っていないはずなのだが、
違和感のある発音になってしまう。
いろいろ試したところ、
「ニューラル」と「ネットワーク」を分離して、
ネットワークのワの部分にアクセント置くと大体いい感じになる。

普通にいい感じになった。
というわけで、つなげて上手くいかない場合は、分離するパターンも試してみるしかない。
最悪、別の言葉に置き換えることもあるが、
先ほどのニューラルネットワークに関しては、置き換える言葉も無いから逃げ道がない。
AivisSpeechで音声生成
次はAneeliの声になる。
つまり、AivisSpeechの使い方。
AivisSpeechのユーザーインターフェースはVOICEVOXと一緒。
つまり、使い方はほぼ一緒になる。
AivisSpeechもテキストのインポートができる。
テキストファイル内にこのような書式で記載すればOK。
Anneli(通常),こんにちは。アナリーです。
ただし、問題があり、
「Anneli」「(通常)」の間にゼロ幅スペースというものが入っており、
これが無いとうまくインポートができない。
ゼロ幅スペースは、
人間から見たら特にスペースは入っていないのだが、
テキストデータ的には入っているスペース。
文字コードとしては200Bで、
入力方法はWindowsのIMEで入力する場合は、
200bと入力し、F5キーを押すと選択候補に出てくる。

正直言ってメンドクサイ。
プリセットの話に加えて、ゼロ幅スペースの問題もあって、私はインポート機能は使用していない。
今後のVersion UPで修正されるのかもしれないが。
Anneli向けプリセット
一応、Anneli向けプリセットも用意している。
この2つになる。
- 基本
- 脳内
VOICEVOXキャラたちのプリセットと比べてかなり少ない。
実はAivisSpeechは、文末の感嘆符で声の表現を変えることができる。
試しに、この4つの「今日はいい天気」をAnneliにしゃべってもらう。
ちなみに、スタイルは通常で、各種パラメータも共通にしてある。
Anneli:「今日はいい天気」
Anneli:「今日はいい天気?」
Anneli:「今日はいい天気!」
Anneli:「今日はいい天気・・・。」
という感じで結構雰囲気が変わる。
つまり、特にプリセットで用意していなくても、
文末の感嘆符で調整できちゃうから不要ってことになる。
こういうのもあって、AivisSpeechの方が調整が少なくてかなり楽ができている。
基本的に苦手な文章というのもあまりないが、
単語単体でしゃべると変なことになる。
例えば、VOICEVOXで問題になったニューラルネットワーク。
これ単体だと、どのように調整してもいい感じにならない。
しかし、
「ニューラルネットワークはこれのことですね。」
という文章にすると自然なアクセントになる。
試しにしゃべってもらうと、
Anneli:「ニューラルネットワーク」
Anneli:「ニューラルネットワークはこれのことですね。」
文章の方だと自然だが、単語だけだとちょっと変になる。
これはアクセントの位置を変えたり、単語を区切っても解決しない。
優秀だけど、融通が利かない印象である。
次のページへ
次のページでは、
- labファイル
- まとめ
コメント