AudioCraft是一个PyTorch库,用于音频生成的深度学习研究。AudioCraft 包含推理和训练代码 用于两个最先进的 AI 生成模型,产生高质量的音频:AudioGen 和 MusicGen。
Audiocraft 是一个用于通过深度学习进行音频处理和生成的库。它具有最先进的 EnCodec 音频压缩器/分词器,以及 MusicGen,这是一种简单且可控的音乐生成 LM,具有文本和旋律调节功能。
安装
AudioCraft 需要 Python 3.9、PyTorch 2.0.0。要安装 AudioCraft,您可以运行以下命令:
# Best to make sure you have torch installed first, in particular before installing xformers.
# Don't run this if you already have PyTorch installed.
pip install 'torch>=2.0'
# Then proceed to one of the following
pip install -U audiocraft # stable release
pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft # bleeding edge
pip install -e . # or if you cloned the repo locally (mandatory if you want to train).
我们还建议您通过您的系统或 Anaconda 进行安装:ffmpeg
sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install 'ffmpeg<5' -c conda-forge
模型
目前,AudioCraft 包含以下训练代码和推理代码:
训练代码
AudioCraft 包含 PyTorch 组件,用于音频中的深度学习研究以及开发模型的训练管道。 有关 AudioCraft 设计原则和说明的一般介绍,以开发您自己的培训管道,请参阅 音频工艺培训文档。
有关重现现有工作和使用开发的训练管道的信息,请参阅每个特定模型的说明 提供指向配置、示例网格和特定于模型/任务的信息以及常见问题解答的指针。
接口文档
我们为 AudioCraft 提供了一些 API 文档。
常见问题
训练代码是否可用?
是的!我们提供Encodec,MusicGen和Multi Band Diffusion的训练代码。
模型存储在哪里?
拥抱面孔将模型存储在特定位置,可以通过设置环境变量来覆盖该位置。AUDIOCRAFT_CACHE_DIR
许可证
- 此存储库中的代码在 MIT 许可证下发布,如 LICENSE 文件中所述。
- 此存储库中的模型权重在 CC-BY-NC 4.0 许可证下发布,如 LICENSE_weights 文件所示。
引文
有关AudioCraft的一般框架,请引用以下内容。
@article{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
year={2023},
journal={arXiv preprint arXiv:2306.05284},
}
当提到特定模型时,请引用特定模型自述文件中提到的内容,例如 ./docs/MUSICGEN.md、./docs/AUDIOGEN.md 等。