テキスト読み上げソフト【VOICEVOX】（Ver0.11.4）を試す

こんにちは、ところてんです！

(*‘∀‘)

2022年3月16日に、任意のテキストを読み上げる音声合成ソフト「VOICEVOX」（Ver0.11.4）が公開されました。

本ソフトは無償で利用可能という事で、早速試してみた際の内容を纏めてみました。

「VOICEVOX」のダウンロード
インストール手順
初回起動時について
「CPU/GPU」の切り替えについて
ヘルプについて
実際に使ってみる
1. 辞書機能について
VOICEVOXで喋らせた際の所要時間
1. PC構成について
2. 喋らせた文言、モード別の所要時間
素晴らしいと感じた点
「A.I VOICE」との比較
最後に

「VOICEVOX」のダウンロード

以下のサイトからダウンロード可能です。

VOICEVOX | 無料のテキスト読み上げソフトウェア

無料で使える中品質なテキスト読み上げソフトウェア。商用・非商用問わず無料で、誰でも簡単にお使いいただけます。イントネーションを詳細に調整することも可能です。

利用環境に応じて、任意のものを選択すれば良いと思います。

（どれが良いか迷う際は、初期状態（OS:Windows、対応モード:GPU/CPU、パッケージ:インストーラ）を選べば良いと思います。）

※なお、ダウンロード容量は約2GBとなります。

インストール手順

過去に記載した手順を参照してください。

初回起動時について

初回起動時に、初回設定を行います。

利用規約

利用規約を読んで、問題なければ、同意して使用開始します。

追加キャラクターの紹介

新規キャラクターの紹介が表示されるので「完了」を押下します。

※ここで、利用可能なキャラクターのサンプルボイスを聴く事、並び替えが可能。

なお、キャラクターを並び替えるには、右画面のキャラクター名の枠を、「ドラッグ」（左クリック）したままカーソル移動して、ドロップすれば良いです。

「九州そら」のデフォルトのスタイル（喋り方）の設定

「九州そら」のデフォルトのスタイル（喋り方）を設定する。

「使いやすさ向上のためのお願い」

「使いやすさ向上のためのお願い」を読み、データ収集に協力する際は「許可」、そうでない際は「拒否」を選択する。

「CPU/GPU」の切り替えについて

デフォルトでは、エンジンに「CPU」が選択されています。

動作要件を満たすグラボを所有しているなら「GPU」を選択する事も可能です。

なお、「3GB以上のメモリがあるNVIDIA製GPU」が必要となります。

切り替える際は、上記メニューの「設定」⇒「オプション」を選択後、「エンジンモード」で「GPU」を選択します。

他にも色々と設定項目がありますが、とりあえず動かして遊んでみるのが良いと思います。

ヘルプについて

利用規約、使い方等の情報が載っているので、軽く目を通しておくと良いと思います。

なお、VOICEVOXの公開ページにて、使い方が載っています。

使い方 | VOICEVOX

VOICEVOXソフトウェアの使い方です

実際に使ってみる

とりあえず、色々喋らせて遊んでみましょう♪

(・∀・)

テキトーに色々喋らせるだけでも、面白いですよね♪

テキスト文字を入れるだけで、ある程度自然な発音で喋ってくれるのは凄いですね！

(*‘∀‘)

辞書機能について

テキスト入力した文言について、ある程度自然な読みをしてくれますが、限界はあります。

例えば、「GAFAMとは米国の巨大IT企業である、google、apple、facebook、amazon、microsoftを指す言葉です。」という言葉を入力すると、「ジイエエエフエエムは・・・」といったように、正しく読ませる事は出来ません。

このような時、カタカナ入力するか、辞書登録する事で解決できます。

※この機能は搭載された事で、使い勝手が向上したと感じます。

「設定」⇒「読み方＆アクセント辞書」から、辞書登録します。

初回起動時、「追加」ボタンが押せない事象があるようです。

※筆者の環境のみ発生？

その場合、アプリケーションを再起動（一旦アプリを終了し、再び起動）すると押下できるようになりました。

上記の手順の流れで辞書登録できます。

次回以降、貼り付けされたテキストについて、辞書の内容が優先されて音声変換されます。

VOICEVOXで喋らせた際の所要時間

実際にVOICEVOXで喋らせた際の所用時間を纏めました。

※測定値は、おおよそですので参考程度としてください。

PC構成について

OS	Windows10 Pro 21H1
CPU	AMD Ryzen 7 3900
GPU	NVIDIA GeFore GTX 1060 3GB
メモリ	32GB
ストレージ	CT1000P5SSD8　（NVMe SSD）

喋らせた文言、モード別の所要時間

喋らせた文言	GPU所要時間	CPU所要時間
おはようございます	0.1秒	0.8秒
microsoftのwindows10はスタンダードなOSです	0.1秒	1.0秒
お団子の種類で一番なのは、醤油も捨てがたいですけれど、やはり定番の餡団子で決まりですよね	0.1秒	2.0秒
何言っているんですか、ずんだ餡が最高に決まっているじゃないですか！	0.1秒	1.5秒

過去バージョンから比較すると、GPU/CPUともに、大幅に速度アップしていました。

GPUを使うと一瞬、CPUの場合でも数秒程度と、速度面での不満は出ないレベルであると感じました。

※凄い進化してますね・・・

(；ﾟДﾟ)

素晴らしいと感じた点

以前にも纏めた内容と、ほぼ同内容ですが、改めて纏めてみました。

無償利用可能、商用利用も可能である。※条件等はVOICEVOXの各種利用規約を参照。
操作が分かり易く、カンタン。
テキストに漢字や英単語を入れても、正しい読みに自動変換してくれる。（限度あり）
無調整でも、ある程度自然な音声で出力される。
必要に応じて、音声のアクセント、イントネーション、話速、音高、抑揚も変更できる。
利用可能なキャラパターンが多い。（男女、様々なキャラが提供されている）

操作がカンタンで、必要に応じて音声調整できる上に無償利用でき、提供音声データも多い、という事で、非常に魅力的なソフトであると感じています！

「A.I VOICE」との比較

過去に纏めているので、そちらを参照してください。

最後に

初回リリースされた際も、その完成度に驚きましたが、オープンソース化された事により、急速な勢いで進化を遂げていると感じています！

ホントに凄い・・・
Σ（・□・；）

頻繁にアップデートが行われているので、これからの進化が楽しみです！

(=ﾟωﾟ)ﾉ

テキスト文章⇒音声読み上げソフトについて、「VOICEVOX」「A.I.VOICE」等の様々なソフトウェアがありますが、無償利用可能であったり、試供版が提供されていたりするので、とりあえず触ってみるのがおススメなのかな、と思います。

動画制作だったり、朗読だったり、様々な利用用途があると思いますので、色々遊んでみましょう♪

※そういえば、ドワンゴ社から「SEIREN VOICE」がリリースされて、そっちも気になっているんですよね。

自分が喋った声が、別の音声になるって、それだけで面白そうと感じてますｗ

それでは！

(=ﾟωﾟ)ﾉシ