Audio und Voice7 Min Lesezeit
Audio-Workflows für Podcasts und Social-Spots
Redaktion brandneo
Wer im Marketing Audio produzieren will, hat 2026 erstmals einen Workflow, der von Skript bis Master-File durch KI gestützt ist. Skript-Drafting durch Sprachmodell, Voice-Spuren durch ElevenLabs oder Cartesia, Hintergrund-Musik durch Suno oder ElevenLabs Music, Mastering durch klassische Tools oder spezialisierte KI-Master-Anbieter. Dieser Deep Dive zeigt zwei vollständige Workflows: einen TikTok-Spot (15 Sekunden) und einen Podcast-Trailer (60 Sekunden). Mit Tool-Stack, Zeit-Schätzung und Quality-Gate-Logik.
Workflow 1: TikTok-Spot in 30 Minuten
Format. 15 Sekunden, 9:16 vertical, Voice plus Music plus optional Sound-Effect.
Tool-Stack
- Claude oder GPT für Skript-Drafting.
- ElevenLabs Voice für Sprecher.
- ElevenLabs Music oder Suno für Hintergrund.
- DAW (Ableton, Logic, Audacity) oder Online-Editor (Riverside, Descript) für Mix.
- Higgsfield oder Sora für Visual.
Schritte
1. Skript-Drafting (5 Min).
Brief in Claude oder Custom GPT.
Vier bis acht Iterationen, bis Skript sitzt.
2. Voice-Generation (5-10 Min).
ElevenLabs, Voice ausgewählt, Settings konfiguriert,
Skript gerendert. Drei bis fünf Takes vergleichen,
bester ausgewählt.
3. Music-Generation (5-10 Min).
ElevenLabs Music oder Suno, Hintergrund-Loop generiert.
Zwei bis vier Iterationen.
4. Mix (5-10 Min).
Voice und Music in DAW oder Online-Editor zusammenführen.
Voice ducken (Sidechain auf Music bei Voice-Stellen).
Master-Lautstärke auf -14 LUFS für TikTok-Compliance.
5. Visual-Generation parallel (variabel).
Mit Higgsfield oder Sora.
6. Export.
MP4 oder MOV mit Audio gemischt.Gesamte Setup-Zeit: etwa 30 Minuten für den ersten Spot. Folge-Spots in 15-20 Minuten.
Quality Gates
- Pre-Generation: Skript gegen Brand-Voice-Notes prüfen.
- Post-Voice: Synthese-Artefakte anhören (kleine Glätter, unsaubere Konsonanten).
- Post-Mix: Voice-Verständlichkeit gegen Music testen.
- Pre-Publication: Mensch validiert Skript-Inhalt.
Workflow 2: Podcast-Trailer in 90 Minuten
Format. 60 Sekunden, monaural oder stereo, Sprecher-Stimme plus Hintergrund-Musik plus Stinger.
Tool-Stack
- Claude oder GPT für Trailer-Skript.
- ElevenLabs Voice für Host-Stimme (gecloned vom echten Host).
- Suno oder Udio für Musik (Intro, Bridge, Outro).
- DAW für Mix.
Schritte
1. Skript-Drafting (15-20 Min).
Hook, Substanz, drei Themen, Outro mit CTA.
2. Voice-Setup (10-15 Min, einmalig).
Voice-Cloning des Hosts mit Professional Voice Clone.
30 Minuten Audio-Sample, Trainings-Zeit etwa 30 Minuten.
3. Voice-Generation (10 Min).
Trailer-Skript durch geklonte Voice rendern,
beste Variante auswählen.
4. Music-Generation (20-30 Min).
Drei Tracks: Intro (15 Sek), Bridge (10 Sek),
Outro (15 Sek). Stilistisch konsistent.
5. Mix (20-30 Min).
Music plus Voice plus Stinger in DAW.
Crossfades zwischen Music-Sektionen.
Voice-Ducking. Master.
6. Export.
MP3 192-256 kbps, ID3-Tags gesetzt.Gesamte Setup-Zeit (erste Episode): etwa 90 Minuten plus einmalig 60 Minuten Voice-Cloning-Setup.
Quality Gates wie oben, plus Voice-Cloning-Quality-Check: kann der Host-Klon den „echten" Vergleich bestehen?
Was im Workflow oft schiefgeht
Stolperfalle 1: Voice und Music kollidieren. Wenn Music zu prominent ist, geht die Voice unter. Lösung: Sidechain-Compression mit Voice als Trigger, Music duckt automatisch.
Stolperfalle 2: Voice-Synthese hört sich „künstlich" an, wenn Skript zu klinisch ist. Lösung: Skript mit Pausen-Hinweisen, Atemzeichen, idiosynkratischen Pausen schreiben.
Stolperfalle 3: Music-Track loopt nicht sauber. Lösung: in der Prompt-Anweisung „end on resolved chord for clean loop" einbauen oder manuell in DAW Crossfade setzen.
Stolperfalle 4: TikTok-Audio-Compliance. TikTok normalisiert Audio. Wer mit -6 LUFS exportiert, fällt nach Plattform-Normalisierung sehr leise. Master auf -14 LUFS für korrekte Wiedergabe.
Trade-offs
| Was sich verschiebt | Konsequenz |
|---|---|
| TikTok-Spot in 30 Minuten produzierbar | Volumen-Spots werden machbar |
| Podcast-Trailer in 90 Minuten | Trailer-Produktion günstiger |
| Tool-Stack über vier bis fünf Anbieter | Multi-Tool-Workflow Pflicht |
| Quality Gates an vier Stellen | Mensch-Verantwortung bleibt |
| Voice-Cloning-Setup einmalig | Folge-Produktionen schneller |
Take
Audio-Produktion mit KI ist 2026 keine Nische mehr, sondern eine produktive Disziplin. Wer den Workflow einmal sauber aufsetzt, produziert Content in einem Bruchteil der Zeit klassischer Studio-Produktion. Was bleibt, ist die kreative Arbeit am Skript und die strategische Wahl der Marken-Stimme.
Was offen bleibt
Mastering durch KI (LANDR, Bandlab Mastering, neue spezialisierte Anbieter) wird quartalsweise besser. Wer 2027 nochmal prüft, kann den Mix-Schritt teilweise automatisieren. Stand Mai 2026: Mix bleibt Hand-Arbeit für saubere Ergebnisse.
Verwandt