Audio und Voice7 Min Lesezeit

Audio-Workflows für Podcasts und Social-Spots

Wer im Marketing Audio produzieren will, hat 2026 erstmals einen Workflow, der von Skript bis Master-File durch KI gestützt ist. Skript-Drafting durch Sprachmodell, Voice-Spuren durch ElevenLabs oder Cartesia, Hintergrund-Musik durch Suno oder ElevenLabs Music, Mastering durch klassische Tools oder spezialisierte KI-Master-Anbieter. Dieser Deep Dive zeigt zwei vollständige Workflows: einen TikTok-Spot (15 Sekunden) und einen Podcast-Trailer (60 Sekunden). Mit Tool-Stack, Zeit-Schätzung und Quality-Gate-Logik.

Workflow 1: TikTok-Spot in 30 Minuten

Format. 15 Sekunden, 9:16 vertical, Voice plus Music plus optional Sound-Effect.

Tool-Stack

Claude oder GPT für Skript-Drafting.
ElevenLabs Voice für Sprecher.
ElevenLabs Music oder Suno für Hintergrund.
DAW (Ableton, Logic, Audacity) oder Online-Editor (Riverside, Descript) für Mix.
Higgsfield oder Sora für Visual.

Schritte

text

1. Skript-Drafting (5 Min).
   Brief in Claude oder Custom GPT.
   Vier bis acht Iterationen, bis Skript sitzt.

2. Voice-Generation (5-10 Min).
   ElevenLabs, Voice ausgewählt, Settings konfiguriert,
   Skript gerendert. Drei bis fünf Takes vergleichen,
   bester ausgewählt.

3. Music-Generation (5-10 Min).
   ElevenLabs Music oder Suno, Hintergrund-Loop generiert.
   Zwei bis vier Iterationen.

4. Mix (5-10 Min).
   Voice und Music in DAW oder Online-Editor zusammenführen.
   Voice ducken (Sidechain auf Music bei Voice-Stellen).
   Master-Lautstärke auf -14 LUFS für TikTok-Compliance.

5. Visual-Generation parallel (variabel).
   Mit Higgsfield oder Sora.

6. Export.
   MP4 oder MOV mit Audio gemischt.

Gesamte Setup-Zeit: etwa 30 Minuten für den ersten Spot. Folge-Spots in 15-20 Minuten.

Quality Gates

Pre-Generation: Skript gegen Brand-Voice-Notes prüfen.
Post-Voice: Synthese-Artefakte anhören (kleine Glätter, unsaubere Konsonanten).
Post-Mix: Voice-Verständlichkeit gegen Music testen.
Pre-Publication: Mensch validiert Skript-Inhalt.

Workflow 2: Podcast-Trailer in 90 Minuten

Format. 60 Sekunden, monaural oder stereo, Sprecher-Stimme plus Hintergrund-Musik plus Stinger.

Tool-Stack

Claude oder GPT für Trailer-Skript.
ElevenLabs Voice für Host-Stimme (gecloned vom echten Host).
Suno oder Udio für Musik (Intro, Bridge, Outro).
DAW für Mix.

Schritte

text

1. Skript-Drafting (15-20 Min).
   Hook, Substanz, drei Themen, Outro mit CTA.

2. Voice-Setup (10-15 Min, einmalig).
   Voice-Cloning des Hosts mit Professional Voice Clone.
   30 Minuten Audio-Sample, Trainings-Zeit etwa 30 Minuten.

3. Voice-Generation (10 Min).
   Trailer-Skript durch geklonte Voice rendern,
   beste Variante auswählen.

4. Music-Generation (20-30 Min).
   Drei Tracks: Intro (15 Sek), Bridge (10 Sek),
   Outro (15 Sek). Stilistisch konsistent.

5. Mix (20-30 Min).
   Music plus Voice plus Stinger in DAW.
   Crossfades zwischen Music-Sektionen.
   Voice-Ducking. Master.

6. Export.
   MP3 192-256 kbps, ID3-Tags gesetzt.

Gesamte Setup-Zeit (erste Episode): etwa 90 Minuten plus einmalig 60 Minuten Voice-Cloning-Setup.

Quality Gates wie oben, plus Voice-Cloning-Quality-Check: kann der Host-Klon den „echten" Vergleich bestehen?

Was im Workflow oft schiefgeht

Stolperfalle 1: Voice und Music kollidieren. Wenn Music zu prominent ist, geht die Voice unter. Lösung: Sidechain-Compression mit Voice als Trigger, Music duckt automatisch.

Stolperfalle 2: Voice-Synthese hört sich „künstlich" an, wenn Skript zu klinisch ist. Lösung: Skript mit Pausen-Hinweisen, Atemzeichen, idiosynkratischen Pausen schreiben.

Stolperfalle 3: Music-Track loopt nicht sauber. Lösung: in der Prompt-Anweisung „end on resolved chord for clean loop" einbauen oder manuell in DAW Crossfade setzen.

Stolperfalle 4: TikTok-Audio-Compliance. TikTok normalisiert Audio. Wer mit -6 LUFS exportiert, fällt nach Plattform-Normalisierung sehr leise. Master auf -14 LUFS für korrekte Wiedergabe.

Trade-offs

Was sich verschiebt	Konsequenz
TikTok-Spot in 30 Minuten produzierbar	Volumen-Spots werden machbar
Podcast-Trailer in 90 Minuten	Trailer-Produktion günstiger
Tool-Stack über vier bis fünf Anbieter	Multi-Tool-Workflow Pflicht
Quality Gates an vier Stellen	Mensch-Verantwortung bleibt
Voice-Cloning-Setup einmalig	Folge-Produktionen schneller

Take

Audio-Produktion mit KI ist 2026 keine Nische mehr, sondern eine produktive Disziplin. Wer den Workflow einmal sauber aufsetzt, produziert Content in einem Bruchteil der Zeit klassischer Studio-Produktion. Was bleibt, ist die kreative Arbeit am Skript und die strategische Wahl der Marken-Stimme.

Was offen bleibt

Mastering durch KI (LANDR, Bandlab Mastering, neue spezialisierte Anbieter) wird quartalsweise besser. Wer 2027 nochmal prüft, kann den Mix-Schritt teilweise automatisieren. Stand Mai 2026: Mix bleibt Hand-Arbeit für saubere Ergebnisse.

Verwandt

Voice-Setup im Detail Music-Setup im Detail Quality-Gate-Logik

audio-workflowtiktok-spotpodcast-trailerelevenlabssunomix