AudioCraft van MetaAI: muziek maken op basis van beschrijving

Moderne generatieve neurale netwerken worden steeds slimmer. Ze schrijven verhalen, voeren gesprekken met mensen en creëren ultrarealistische beelden. Nu kunnen ze eenvoudige muziektracks produceren zonder dat daar professionele artiesten voor nodig zijn. Deze toekomst is vandaag werkelijkheid geworden. Dat was te verwachten, want muzikale harmonieën en ritmes zijn geworteld in wiskundige principes.
Meta heeft zijn toewijding aan de wereld van open-source software aangetoond. Ze hebben drie neurale netwerkmodellen openbaar gemaakt waarmee geluiden en muziek kunnen worden gemaakt van tekstbeschrijvingen:
- MusicGen - genereert muziek uit tekst.
- AudioGen - genereert audio uit tekst.
- EnCodec - neurale audiocompressor van hoge kwaliteit.
MusicGen is getraind op 20.000 uur muziek. U kunt het lokaal gebruiken via speciale LeaderGPU-servers als platform.
Standaard installatie
Update de pakket cache repository:
sudo apt update && sudo apt -y upgrade
Installeer de Python pakketbeheerder, pip, en de ffmpeg bibliotheken:
sudo apt -y install python3-pip ffmpeg
Installeer torch 2.0 of nieuwer met pip:
pip install 'torch>=2.0'
De volgende opdracht installeert automatisch audiocraft en alle benodigde afhankelijkheden:
pip install -U audiocraft
Laten we een eenvoudige Python app schrijven, die gebruik maakt van het grote voorgetrainde MusicGen model met 3,3B parameters:
nano generate.py
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained("facebook/musicgen-large")
model.set_generation_params(duration=30) # generate a 30 seconds sample.
descriptions = ["rock solo"]
wav = model.generate(descriptions) # generates sample.
for idx, one_wav in enumerate(wav):
# Will save under {idx}.wav, with loudness normalization at -14 db LUFS.
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
De gemaakte app uitvoeren:
python3 generate.py
Na een paar seconden verschijnt het gegenereerde bestand (0.wav) in de map.
Koffie Vampir 3
Kloon een projectrepository:
git clone https://github.com/CoffeeVampir3/audiocraft-webui.git
Open de gekloonde map:
cd audiocraft-webui
Voer het commando uit dat je systeem voorbereidt en alle benodigde pakketten installeert:
pip install -r requirements.txt
Start vervolgens de Coffee Vampire 3 server met het volgende commando:
python3 webui.py
Coffee Vampire 3 gebruikt Flask als framework. Standaard draait het op localhost met poort 5000. Als je toegang op afstand wilt, gebruik dan de poort doorstuurfunctie in je SSH-client. Anders kun je een VPN-verbinding met de server organiseren.
Let op! Dit is een potentieel gevaarlijke actie; gebruik op eigen risico:
nano webui.py
Scroll naar beneden en vervang socketio.run(app) door socketio.run(app, host=’0.0.0.0’, port=5000)
Sla het bestand op en start de server met het bovenstaande commando. Dit geeft toegang tot de server vanaf het openbare internet zonder enige authenticatie.
Vergeet niet disable AdBlock software te gebruiken, omdat dit de muziekspeler aan de rechterkant van de webpagina kan blokkeren. Je kunt beginnen door de prompt in te voeren en te bevestigen met de knop Submit:

TTS-generatie WebUI
Stap 1. Stuurprogramma's
Werk de pakketcache-repository bij:
sudo apt update && sudo apt -y upgrade
Installeer Nvidia-stuurprogramma's met het automatische installatieprogramma of met onze gids Nvidia-stuurprogramma's installeren in Linux:
sudo ubuntu-drivers autoinstall
Start de server opnieuw op:
sudo shutdown -r now
Stap 2. Docker
De volgende stap is het installeren van Docker. Laten we enkele pakketten installeren die moeten worden toegevoegd aan de Docker-repository:
sudo apt -y install apt-transport-https curl gnupg-agent ca-certificates software-properties-common
Download de Docker GPG-sleutel en sla deze op:
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
Voeg de repository toe:
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu focal stable"
Installeer Docker CE (Community Edition) met CLI en de containerd runtime:
sudo apt -y install docker-ce docker-ce-cli containerd.io
Voeg de huidige gebruiker toe aan de docker groep:
sudo usermod -aG docker $USER
Wijzigingen toepassen zonder uit- en aanmeldprocedure:
newgrp docker
Stap 3. GPU passthrough
Laten we NVIDIA® GPU's passthrough inschakelen in Docker. Het volgende commando leest de huidige OS-versie in de distributievariabele, die we in de volgende stap kunnen gebruiken:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
Download de GPG-sleutel van de Nvidia-repository en sla deze op:
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
Download de lijst met Nvidia-repositories en sla deze op voor gebruik in de standaard APT-pakketbeheerder:
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
Werk de pakketcache-repository bij en installeer de GPU passthrough toolkit:
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
Start de Docker-daemon opnieuw:
sudo systemctl restart docker
Stap 4. WebUI
Download het archief van het archief:
wget https://github.com/rsxdalv/tts-generation-webui/archive/refs/heads/main.zip
Uitpakken:
unzip main.zip
Open de map van het project:
cd tts-generation-webui-main
Start het bouwen van de image:
docker build -t rsxdalv/tts-generation-webui .
Voer de aangemaakte container uit:
docker compose up -d
Nu kun je http://[server_ip]:7860 openen, je prompt intypen, het benodigde model selecteren en op de knop Generate klikken:

Het systeem downloadt automatisch het geselecteerde model tijdens de eerste generatie. Veel plezier!
Zie ook:
Bijgewerkt: 12.08.2025
Gepubliceerd: 22.01.2025