Dein Podcast auf Englisch: Wie groß ist der Markt, und reicht KI-Dubbing?
- Der englischsprachige Podcast-Markt ist absolut rund fünfmal größer: ~115 Mio. wöchentliche Hörer in den USA plus ~13 Mio. in UK vs. ~24 Mio. in Deutschland[1][3][4], auch wenn der DE-Markt selbst wieder wächst (29 → 34 % wöchentlich)[3].
- Hörer erkennen KI-Stimmen oft nicht (nur 73 % Trefferquote, PLOS ONE)[5]. Aber der erste menschlich bewertete Dubbing-Benchmark (VOX-DUB, 30.240 Urteile) zeigt: Prosodie, Akzent und Emotion bleiben die Schwachstellen aller kommerziellen Systeme[6].
- KI-Dubbing kostet grob 1–3 $/Minute[7][8], menschliche Lokalisierung ab 20–55 €/Minute. Der Unterschied ist nicht der Minutenpreis, sondern wer die Fehler findet.
- Spotifys prominenter AI-Translation-Pilot (Lex Fridman & Co., 2023) hat nie Erfolgszahlen veröffentlicht[9]. Lokalisierung lohnt sich mit klarem Zielmarkt-Case, nicht als Tech-Experiment.
Die Marktfrage: Wie viele Hörer gewinnst du wirklich?
Relativ betrachtet sind die Märkte näher beieinander, als viele denken: In den USA hören 40 % der Bevölkerung 12+ wöchentlich Podcasts, ein Allzeithoch mit insgesamt 773 Millionen Hörstunden pro Woche[2]. In Deutschland sind es 34 % (2024: noch 29 %)[3], in UK 24 % bei beachtlichen 9 Stunden pro Hörer und Woche[4].
Wöchentliche Podcast-Hörer: relativ ähnlich, absolut Welten
Die Schlussfolgerung ist nüchtern: Wer ein Thema mit internationalem Pendant-Publikum hat, verfünffacht mit einer englischen Version den adressierbaren Markt. Wer ein zutiefst deutsches Nischenthema bedient, gewinnt durch Übersetzung wenig; dazu unten mehr in der Caveat-Box.
Was Hörer von KI-Stimmen halten: die Studienlage.
Zunächst die unbequeme Wahrheit für alle Handwerks-Romantiker: Menschen sind schlecht darin, synthetische Stimmen zu erkennen. In einer PLOS-ONE-Studie (n=529, Englisch und Mandarin) identifizierten Hörer Deepfake-Sprache nur in 73 % der Fälle korrekt, und gezieltes Training verbesserte die Erkennung um magere 3,84 Prozentpunkte[5].
Das Problem liegt eine Ebene tiefer: Nicht ob die Stimme künstlich klingt, sondern ob die Übertragung stimmt: Timing, Betonung, Witz, Fachbegriffe. Genau dort setzt der erste große menschlich bewertete Benchmark an.
KI-Dubbing im Benchmark: wo es bricht.
Der VOX-DUB-Benchmark (Toloka, September 2025) ließ vier kommerzielle Dubbing-Systeme (darunter ElevenLabs) mit 30.240 menschlichen Einzelurteilen bewerten. Das Ergebnis ist konsistent über alle Systeme: KI-Dubbing scheitert systematisch an Prosodie (Pausen, Betonung), zeigt phonetische Verzerrungen und nicht-muttersprachliche Akzente, und es gibt einen messbaren Trade-off zwischen Emotionsübertragung und Audioqualität[6].
Übersetzt: Die Tools liefern eine deutsche oder englische Audiospur. Was sie nicht liefern, ist eine Folge, die klingt, als wäre sie in der Zielsprache aufgenommen worden. Für Nebenbei-Content mag das reichen. Für einen Podcast, dessen Produkt die Beziehung zwischen Host und Publikum ist, ist es genau die Lücke, die man hört.
Der Spotify-Pilot: Was das größte Experiment (nicht) bewies.
Im September 2023 startete Spotify mit OpenAI-Voice-Technologie einen viel beachteten Pilot: AI-übersetzte Folgen von Lex Fridman, Dax Shepard und Steven Bartlett, zunächst auf Spanisch, dann Französisch und Deutsch, geklonte Original-Stimmen inklusive[9].
Das Bemerkenswerteste daran ist, was seitdem nicht passiert ist: Spotify hat nie Hörerzahlen, Retention-Daten oder einen Ausbau zum Standard-Feature veröffentlicht. Ein Konzern mit perfekter Messinfrastruktur und maximalem PR-Interesse schweigt seit über zwei Jahren über die Ergebnisse seines prominentesten Lokalisierungs-Experiments. Das ist kein Beweis des Scheiterns, aber es ist ein Datenpunkt, den jeder ernst nehmen sollte, der „einfach KI drüberlaufen lassen" für eine Strategie hält.
Die Kostenrechnung: KI vs. Mensch, ehrlich gerechnet.
Die Preisstruktur ist schnell erzählt: KI-Self-Service kostet bei ElevenLabs je nach Plan ab wenigen Dollar Monatsgebühr plus Credits[7], bei Rask liegen Zusatzminuten bei 3 $/Minute[8]. Eine 30-Minuten-Folge: grob 20–90 $.
Menschliche Lokalisierung (Transkription, Übersetzung mit kultureller Adaption, Re-Voicing, Mastering) kostet bei mir ab 20 €/Minute (Untertitel) bzw. ab 55 €/Minute (Vollvertonung): eine 30-Minuten-Folge ab etwa 600 € bzw. 1.650 €. Das ist das Zwanzigfache. Die ehrliche Frage ist also nicht, was billiger ist; das ist immer die KI. Die Frage ist, was die unbeaufsichtigte Maschinen-Ausgabe kostet: Witze, die flach fallen, Fachbegriffe, die falsch sitzen, Timing, das rutscht[6], gehört von genau dem Publikum, das du gerade für dich gewinnen willst. Wo KI hilft, nutze ich sie übrigens selbst als Basis; Regie und Qualitätskontrolle macht ein Mensch.
- Nischenthema ohne internationales Pendant-Publikum: Der 5×-Markt nützt nichts, wenn dein Thema dort niemanden betrifft.
- Host-Persönlichkeit ist das Produkt: Wenn Stimme und Humor nicht übertragbar sind, überträgt auch die beste Lokalisierung das Wesentliche nicht.
- Kein Budget für Kontinuität: Eine einmalig übersetzte Folge verpufft; Feeds wachsen mit Regelmäßigkeit.
- Reine Reichweiten-Hoffnung ohne Monetarisierungsplan im Zielmarkt.
- Und zur Datenlage selbst: Es gibt kaum belegte Erfolgs-Cases mehrsprachiger Podcast-Feeds; der Spotify-Pilot blieb ohne veröffentlichte Zahlen, und auch diese Lücke gehört zur ehrlichen Entscheidungsgrundlage.
Häufige Fragen.
Wie viel größer ist der englischsprachige Podcast-Markt als der deutsche?
Relativ ähnlich aktiv (USA 40 %, DE 34 %, UK 24 % wöchentlich), absolut Welten: ~115 Mio. + ~13 Mio. vs. ~24 Mio. wöchentliche Hörer, grob Faktor fünf[1][3][4].
Wie gut ist KI-Dubbing 2026 wirklich?
Gut genug, um Hörer zu täuschen (nur 73 % Erkennungsquote[5]), und systematisch schwach bei Prosodie, Akzent und Emotion, über alle vier getesteten kommerziellen Systeme hinweg (VOX-DUB, 30.240 Urteile[6]). Als Basis brauchbar, unbeaufsichtigt veröffentlicht hörbar.
Was kostet es, einen Podcast professionell übersetzen zu lassen?
KI: grob 1–3 $/Minute[7][8]. Human: ab 20 €/Minute (Untertitel) bzw. ab 55 €/Minute (Vollvertonung): 30-Minuten-Folge ab ca. 600 € / 1.650 €. Der Unterschied ist nicht der Minutenpreis, sondern wer die Fehler findet, bevor das Publikum sie hört.
Lohnt sich der Schritt für deinen Podcast?
30 Minuten, kostenfrei: Wir schauen auf dein Thema, deinen Zielmarkt und rechnen ehrlich, inklusive „lass es" als mögliche Antwort.
→ Termin buchenQuellen.
- [1] Edison Research, „The Infinite Dial 2025" (55 % der US-Bevölkerung 12+ monatliche Podcast-Konsumenten, Allzeithoch). edisonresearch.com ↩
- [2] Edison Research, „The Podcast Consumer 2025" (40 % wöchentlich; 773 Mio. Hörstunden/Woche, 13+). Die ~115-Mio.-Angabe ist eine Hochrechnung aus 40 % der US-Bevölkerung 12+. edisonresearch.com ↩
- [3] ARD/ZDF-Medienstudie 2025 via Media Perspektiven (34 % mind. wöchentlich, 2024: 29 %; Tagesreichweite 14 %). media-perspektiven.de ↩
- [4] RAJAR MIDAS Autumn 2025 (24 % der UK-Erwachsenen 15+ hören wöchentlich; Ø 9,0 Std./Woche; ~127 Mio. Std. gesamt). Primär-PDF rajar.co.uk; Aufbereitung via podcastvideos.com. podcastvideos.com ↩
- [5] Mai, K. T. et al. (2023), „Warning: Humans cannot reliably detect speech deepfakes". PLOS ONE (n=529; 73 % Trefferquote; Training +3,84 Pp.). journals.plos.org ↩
- [6] Toloka (Sep 2025), „VOX-DUB: Benchmarking AI Dubbing" (30.240 menschliche Urteile, 4 kommerzielle Systeme inkl. ElevenLabs; systematische Prosodie-/Akzent-Schwächen, Emotion-vs.-Audioqualität-Trade-off). toloka.ai ↩
- [7] ElevenLabs, Pricing (Pläne ab $6/Monat; Dubbing über Credit-System). Abgerufen Juni 2026. elevenlabs.io ↩
- [8] Rask AI, Pricing (Pläne $33–150/Monat für 25–300 Min.; Zusatzminuten $3/Min.). Abgerufen Juni 2026. rask.ai ↩
- [9] Spotify Newsroom (Sep 2023), „Spotify pilots AI Voice Translation" (Lex Fridman, Dax Shepard, Steven Bartlett; OpenAI-Voice-Tech; Spanisch, dann FR + DE). Keine Erfolgszahlen veröffentlicht (Stand Juni 2026). newsroom.spotify.com ↩
- [10] Online-Audio-Monitor 2025 via BVDW (~24 Mio. Podcast-Hörer in Deutschland; 53 Mio. Online-Audio-Nutzer). bvdw.org ↩