Text To Audio Models

Browse AI models for multimodal decomposition and recomposition pipelines: plug any model into your extractors.

470 models available

Run models on your own files, free Schedule Demo Read Documentation

Showing 1-24 of 470 models

Text To Audio

facebook/musicgen-medium

2.0M

164

transformers

View Details

Text To Audio

facebook/musicgen-small

307K

499

transformers

View Details

Text To Audio

facebook/musicgen-large

62K

535

transformers

View Details

Text To Audio

ACE-Step/Ace-Step1.5

60K

807

transformers

View Details

Text To Audio

stabilityai/stable-audio-3-medium

39K

244

stable-audio-3

View Details

Text To Audio

ACE-Step/acestep-5Hz-lm-4B

28K

transformers

View Details

Text To Audio

ACE-Step/acestep-captioner

27K

transformers

View Details

Text To Audio

stabilityai/stable-audio-open-1.0

18K

1,540

stable-audio-tools

View Details

Text To Audio

stabilityai/stable-audio-3-small-music

14K

101

stable-audio-3

View Details

Text To Audio

stabilityai/stable-audio-3-medium-base

14K

stable-audio-3

View Details

Text To Audio

pother/mms-tts-finetune-tha

14K

transformers

View Details

Text To Audio

ACE-Step/acestep-v15-base

14K

transformers

View Details

Text To Audio

stabilityai/stable-audio-3-small-sfx

13K

stable-audio-3

View Details

Text To Audio

facebook/musicgen-melody

11K

255

transformers

View Details

Text To Audio

google/magenta-realtime-2

237

magenta-realtime-2

View Details

Text To Audio

ACE-Step/acestep-5Hz-lm-0.6B

transformers

View Details

Text To Audio

ACE-Step/acestep-v15-xl-sft

transformers

View Details

Text To Audio

facebook/musicgen-stereo-large

transformers

View Details

Text To Audio

espnet/fastspeech2_conformer

transformers

View Details

Text To Audio

eustlb/higgs-audio-v2-generation-3B-base

transformers

View Details

Text To Audio

ACE-Step/acestep-v15-xl-turbo

190

transformers

View Details

Text To Audio

declare-lab/mustango

transformers

View Details

Text To Audio

ilintar/thinksound-gguf

View Details

Text To Audio

espnet/fastspeech2_conformer_with_hifigan

transformers

View Details

...

1 / 20

Connectors

Retrievers

What's new in models

Full changelog

Jun 22, 2026200+ model pages and new retrieval deep-divesExpanded the model catalog with enriched pages (architecture, benchmarks, Mixpeek SDK examples, and pipeline pairings) across embedding, vision-language, video, audio, OCR, and reranking models: plus new vendor-neutral guides on Matryoshka embeddings, reasoning rerankers, and retrieval feedback loops.