Casestudy: Der Autonome AI Podcaster

Mein Workflow zum Podcast
Wie ich mit LLM und N8N meinen Podcast automatisierte.

Wie ich mit n8n, LLMs und FFmpeg eine vollautomatisierte Medien-Pipeline gebaut habe.

Tech Stack: n8n (Self-Hosted), Node.js, PM2, FFmpeg, OpenAI API, WordPress REST API Status: Live (Production)


1. Das Problem: Information Overload & FOMO

In meinem Job ist Wissen die wichtigste Währung. Die AI-Welt dreht sich unfassbar schnell – neue Modelle von Google, OpenAI oder Anthropic erscheinen wöchentlich. Mein persönlicher Pain Point war klassisch: Ich wollte tiefes Wissen, hatte aber keine Zeit, täglich 50 RSS-Feeds zu lesen.

Die Challenge: Ein System zu bauen, das nicht nur aggregiert, sondern kuratiert, synthetisiert und in einem Format bereitstellt, das ich passiv konsumieren kann (Audio), ohne dabei wie ein langweiliger Roboter zu klingen.

2. Die Lösung: Eine lokale “Agentic” Pipeline

Statt auf fertige SaaS-Lösungen zu setzen, habe ich eine maßgeschneiderte Pipeline auf meinem lokalen Windows-Server entwickelt. Das Herzstück ist n8n, orchestriert durch PM2 für maximale Ausfallsicherheit.

Der Workflow im Überblick:

  1. Ingestion: Überwachung von 20+ High-Signal RSS-Feeds (Google Research, OpenAI, AWS, TechCrunch).
  2. Filter & Logic: Ein LLM-Agent bewertet die Relevanz und filtert “Fluff” (PR-Meldungen) heraus.
  3. Creation: Ein zweiter Agent schreibt ein narratives Skript, optimiert für das gesprochene Wort (Satzrhythmus, keine Schachtelsätze).
  4. Audio Synthesis: Generierung der Stimme via TTS (Text-to-Speech).
  5. Audio Engineering: Lokales Rendering und Mixing mit FFmpeg.
  6. Distribution: Upload zu WordPress und Generierung des RSS-Feeds für Spotify & Youtube Music

3. Technische Deep Dives & Hürden

Ein solches System klingt in der Theorie einfach, die Tücke lag jedoch in den Details. Hier sind drei spezifische technische Herausforderungen, die ich gelöst habe:

A. Das “Audio Sandwich” mit FFmpeg

Die meisten automatisierten Podcasts klingen steril, weil Stimme und Musik nicht gemischt sind. Ich wollte Radio-Qualität. Ich nutze einen Execute Command Node in n8n, der ffmpeg lokal aufruft. Das Skript führt komplexes “Auto-Ducking” und Mastering durch:

  • Loudness Normalization: Intro, Outro und TTS-Stimme werden separat auf -16 LUFS (Podcast-Standard) gepegelt, um Lautstärkesprünge zu vermeiden.
  • Resampling: Konvertierung von rohen PCM-Daten (24kHz) auf Broadcast-Standard (48kHz), um Artefakte beim Mischen zu verhindern.
  • Dynamic Loop: Die Hintergrundmusik wird automatisch an die Länge des gesprochenen Textes angepasst (ge-looped) und subtil unter die Stimme gemischt.

Bash

# Snippet aus dem FFmpeg Complex Filter
[1:a]aresample=48000,loudnorm=I=-16:TP=-1.5:LRA=11[tts_norm];
[tts_norm][2:a]amix=inputs=2:duration=first:dropout_transition=2[center]

B. Windows Environment & PM2

Da n8n auf einer Windows-Maschine läuft, gab es Probleme mit der Prozessstabilität nach Neustarts. Die Lösung war der Einsatz von PM2 (Process Manager 2), der normalerweise für Linux-Server optimiert ist. Der Fix: PM2 scheiterte initial daran, die Windows .cmd Wrapper zu starten. Ich musste PM2 so konfigurieren, dass es direkt den Node.js-Entrypoint der n8n-Binaries anspricht und die Umgebungsvariablen für FFmpeg explizit injiziert.

C. Halluzinations-Kontrolle durch “Negative Constraints”

In frühen Tests tendierten die LLMs dazu, Google-News zu erfinden, wenn der Feed nur über z.B. OpenAI-News enthielt (Salience Bias). Die Lösung: Ein mehrstufiger Systemprompt mit strikter “Data Filtering”-Sektion. Das Modell muss nun explizit bestätigen, dass es irrelevante Daten ignoriert, bevor es schreibt.

JSON

"STEP 1: STRICT DATA FILTERING"
"ACTION: You must act as a FILTER first. IGNORE and DISCARD any news item that is NOT specifically about [Topic]..."

4. Das Ergebnis: “Rays Zukunfts-Boost”

Das System produziert nun vollautonom jede Woche eine neue Episode.

  • Zeitaufwand manuell: ca. 6-8 Stunden pro Episode (Research, Script, Recording, Edit).
  • Zeitaufwand automatisiert: 0 Minuten (nach Setup).
  • Kosten: Minimal (API-Kosten im Cent-Bereich + lokaler Strom).

5. Fazit & Ausblick

Dieses Projekt zeigt, dass Agentic AI mehr ist als nur Chatbots. Es ist die Fähigkeit, komplexe, kreative Workflows – von der Recherche bis zum fertigen Medienprodukt – zu orchestrieren.


Ray’s Zukunfts-Boost: Agentic AI & Innovation

12 episodes
Schnall dich an – wir zünden den Warp-Antrieb! Willkommen bei Ray’s Zukunfts-Boost, deinem Update aus dem Maschinenraum von ideabay.ai. Ich bin Ray, UX-Strategist und Maker. Hier geht es nicht um theoretisches “Tech-Blabla”, sondern um Agentic AI, die dein Leben wirklich verändert. Wir sprechen über digitale Kollegen, die uns augmentieren statt ersetzen (“Human Augmentation”), und wie wir mit Design Thinking die Zukunft bauen. Kein Fluff. Kein Hype. Nur echte Innovation für Macher, die vorne mitspielen wollen. Bleib neugierig – die Zukunft wartet nicht!
Listen Now →

Comments

No comments yet. Why don’t you start the discussion?

Kommentar verfassen