【要約】 BarkはTransformerベースの多言語対応の音声合成技術である。この技術は、Barkの公式GitHubページでも説明されている。Windows上でのBarkのインストールは、リポジトリのクローンとpipで行うことができる。音声合成のためのコマンド実行では、テキストの指定と出力ファイル名の指定を行う。プリセットを使用して音声合成を行うことも可能である。また、Barkを用いて音声合成を行うPythonプログラムも説明している。
【目次】
Bark は Transformer ベースの音声合成の技術.多言語に対応.
【関連する外部ページ】
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
NVIDIA グラフィックスボードを搭載しているパソコンの場合には, NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNN のインストールを行う.
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
PyTorch のページ: https://pytorch.org/index.html
次のコマンドを実行することにより, PyTorch 2.3 (NVIDIA CUDA 11.8 用)がインストールされる. 但し,Anaconda3を使いたい場合には別手順になる.
事前に NVIDIA CUDA のバージョンを確認しておくこと(ここでは,NVIDIA CUDA ツールキット 11.8 が前もってインストール済みであるとする).
PyTorch で,GPU が動作している場合には,「torch.cuda.is_available()」により,True が表示される.
python -m pip install -U --ignore-installed pip python -m pip uninstall -y torch torchvision torchaudio python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Anaconda3を使いたい場合には, Anaconda プロンプト (Anaconda Prompt) を管理者として実行し, 次のコマンドを実行する. (PyTorch と NVIDIA CUDA との連携がうまくいかない可能性があるため,Anaconda3を使わないことも検討して欲しい).
conda install -y pytorch torchvision torchaudio pytorch-cuda=11.8 cudnn -c pytorch -c nvidia py -c "import torch; print(torch.__version__, torch.cuda.is_available())"
【サイト内の関連ページ】
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
cd %HOMEPATH% rmdir /s /q bark git clone https://github.com/suno-ai/bark cd bark python -m pip install .
使用可能な言語は次のページに記載されている: https://github.com/suno-ai/bark#supported-languages
python -m bark --text "日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。" --output_filename "bark.wav" bark.wav
使用可能なプリセットは次のページに記載されている: https://github.com/suno-ai/bark/tree/main/bark/assets/prompts
python -m bark --history_prompt "v2/ja_speaker_9" --text "日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。" --output_filename "bark.wav" bark.wav
cd %HOMEPATH%\bark notepad tts.py
このプログラムは, 公式の GitHub のページ: https://github.com/suno-ai/barkで公開されていたものを変更して使用している.
from bark import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav # download and load all models preload_models() # generate audio from text text_prompt = """ 日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。 """ audio_array = generate_audio(text_prompt) # save audio to disk write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを tts.pyのようなファイル名で保存したので, 「python tts.py」のようなコマンドで行う.
python tts.py
bark_generation.wav
使用可能なプリセットは次のページに記載されている: https://github.com/suno-ai/bark/tree/main/bark/assets/prompts
cd %HOMEPATH%\bark notepad preset.py
このプログラムは, 公式の GitHub のページ: https://github.com/suno-ai/barkで公開されていたものを変更して使用している.
from bark import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav # download and load all models preload_models() # generate audio from text text_prompt = """ 日本国民は、国家の名誉にかけ、全力をあげてこの崇高な理想と目的を達成することを誓ふ。 """ audio_array = generate_audio(text_prompt, history_prompt="v2/ja_speaker_9") # save audio to disk write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを preset.pyのようなファイル名で保存したので, 「python preset.py」のようなコマンドで行う.
python preset.py
bark_generation.wav