Insights · Die Datenlage

Dein Podcast auf Englisch: Wie groß ist der Markt, und reicht KI-Dubbing?

Q: Wie viel größer ist der englischsprachige Podcast-Markt als der deutsche?

Relativ sind die Märkte ähnlich aktiv (USA: 40 % wöchentliche Hörer, Deutschland: 34 %, UK: 24 %). Absolut liegen Welten dazwischen: rund 115 Millionen wöchentliche Hörer in den USA plus etwa 13 Millionen in UK gegenüber rund 24 Millionen in Deutschland, grob Faktor fünf, bevor weitere englischsprachige Märkte mitgezählt sind.

Q: Wie gut ist KI-Dubbing 2026 wirklich?

Hörer erkennen synthetische Stimmen nur in 73 % der Fälle (PLOS ONE 2023), gut genug, um zu täuschen. Aber der erste menschlich bewertete Dubbing-Benchmark (VOX-DUB, 30.240 Urteile über vier kommerzielle Systeme) zeigt systematische Schwächen bei Prosodie, Akzent und Emotion. KI taugt als Basis; unbeaufsichtigt veröffentlicht klingt sie hörbar nach Maschine.

Q: Was kostet es, einen Podcast professionell übersetzen zu lassen?

KI-Dubbing kostet grob 1–3 $ pro Minute (Rask, ElevenLabs-Credits). Menschliche Lokalisierung: ab 20 €/Minute für Untertitel, ab 55 €/Minute für Vollvertonung mit Re-Voicing und Mastering: eine 30-Minuten-Folge ab etwa 600 € bzw. 1.650 €. Der Unterschied ist nicht der Minutenpreis, sondern wer die Fehler findet, bevor das Publikum sie hört.

Von Moritz Seipke · 12. Juni 2026 · ~8 Min. Lesezeit

TL;DR

Der englischsprachige Podcast-Markt ist absolut rund fünfmal größer: ~115 Mio. wöchentliche Hörer in den USA plus ~13 Mio. in UK vs. ~24 Mio. in Deutschland^[1]^[3]^[4], auch wenn der DE-Markt selbst wieder wächst (29 → 34 % wöchentlich)^[3].
Hörer erkennen KI-Stimmen oft nicht (nur 73 % Trefferquote, PLOS ONE)^[5]. Aber der erste menschlich bewertete Dubbing-Benchmark (VOX-DUB, 30.240 Urteile) zeigt: Prosodie, Akzent und Emotion bleiben die Schwachstellen aller kommerziellen Systeme^[6].
KI-Dubbing kostet grob 1–3 $/Minute^[7]^[8], menschliche Lokalisierung ab 20–55 €/Minute. Der Unterschied ist nicht der Minutenpreis, sondern wer die Fehler findet.
Spotifys prominenter AI-Translation-Pilot (Lex Fridman & Co., 2023) hat nie Erfolgszahlen veröffentlicht^[9]. Lokalisierung lohnt sich mit klarem Zielmarkt-Case, nicht als Tech-Experiment.

Die Marktfrage: Wie viele Hörer gewinnst du wirklich?

Relativ betrachtet sind die Märkte näher beieinander, als viele denken: In den USA hören 40 % der Bevölkerung 12+ wöchentlich Podcasts, ein Allzeithoch mit insgesamt 773 Millionen Hörstunden pro Woche^[2]. In Deutschland sind es 34 % (2024: noch 29 %)^[3], in UK 24 % bei beachtlichen 9 Stunden pro Hörer und Woche^[4].

Wöchentliche Podcast-Hörer: relativ ähnlich, absolut Welten

USA: Edison Research 2025^[1]^[2] (Millionen-Wert aus 40 % der Bevölkerung 12+ hochgerechnet); DE: Online-Audio-Monitor 2025^[10], Quote ARD/ZDF^[3]; UK: RAJAR MIDAS^[4].

Die Schlussfolgerung ist nüchtern: Wer ein Thema mit internationalem Pendant-Publikum hat, verfünffacht mit einer englischen Version den adressierbaren Markt. Wer ein zutiefst deutsches Nischenthema bedient, gewinnt durch Übersetzung wenig; dazu unten mehr in der Caveat-Box.

Was Hörer von KI-Stimmen halten: die Studienlage.

Zunächst die unbequeme Wahrheit für alle Handwerks-Romantiker: Menschen sind schlecht darin, synthetische Stimmen zu erkennen. In einer PLOS-ONE-Studie (n=529, Englisch und Mandarin) identifizierten Hörer Deepfake-Sprache nur in 73 % der Fälle korrekt, und gezieltes Training verbesserte die Erkennung um magere 3,84 Prozentpunkte^[5].

Das Problem liegt eine Ebene tiefer: Nicht ob die Stimme künstlich klingt, sondern ob die Übertragung stimmt: Timing, Betonung, Witz, Fachbegriffe. Genau dort setzt der erste große menschlich bewertete Benchmark an.

KI-Dubbing im Benchmark: wo es bricht.

Der VOX-DUB-Benchmark (Toloka, September 2025) ließ vier kommerzielle Dubbing-Systeme (darunter ElevenLabs) mit 30.240 menschlichen Einzelurteilen bewerten. Das Ergebnis ist konsistent über alle Systeme: KI-Dubbing scheitert systematisch an Prosodie (Pausen, Betonung), zeigt phonetische Verzerrungen und nicht-muttersprachliche Akzente, und es gibt einen messbaren Trade-off zwischen Emotionsübertragung und Audioqualität^[6].

Übersetzt: Die Tools liefern eine deutsche oder englische Audiospur. Was sie nicht liefern, ist eine Folge, die klingt, als wäre sie in der Zielsprache aufgenommen worden. Für Nebenbei-Content mag das reichen. Für einen Podcast, dessen Produkt die Beziehung zwischen Host und Publikum ist, ist es genau die Lücke, die man hört.

Der Spotify-Pilot: Was das größte Experiment (nicht) bewies.

Im September 2023 startete Spotify mit OpenAI-Voice-Technologie einen viel beachteten Pilot: AI-übersetzte Folgen von Lex Fridman, Dax Shepard und Steven Bartlett, zunächst auf Spanisch, dann Französisch und Deutsch, geklonte Original-Stimmen inklusive^[9].

Das Bemerkenswerteste daran ist, was seitdem nicht passiert ist: Spotify hat nie Hörerzahlen, Retention-Daten oder einen Ausbau zum Standard-Feature veröffentlicht. Ein Konzern mit perfekter Messinfrastruktur und maximalem PR-Interesse schweigt seit über zwei Jahren über die Ergebnisse seines prominentesten Lokalisierungs-Experiments. Das ist kein Beweis des Scheiterns, aber es ist ein Datenpunkt, den jeder ernst nehmen sollte, der „einfach KI drüberlaufen lassen" für eine Strategie hält.

Die Kostenrechnung: KI vs. Mensch, ehrlich gerechnet.

Die Preisstruktur ist schnell erzählt: KI-Self-Service kostet bei ElevenLabs je nach Plan ab wenigen Dollar Monatsgebühr plus Credits^[7], bei Rask liegen Zusatzminuten bei 3 $/Minute^[8]. Eine 30-Minuten-Folge: grob 20–90 $.

Menschliche Lokalisierung (Transkription, Übersetzung mit kultureller Adaption, Re-Voicing, Mastering) kostet bei mir ab 20 €/Minute (Untertitel) bzw. ab 55 €/Minute (Vollvertonung): eine 30-Minuten-Folge ab etwa 600 € bzw. 1.650 €. Das ist das Zwanzigfache. Die ehrliche Frage ist also nicht, was billiger ist; das ist immer die KI. Die Frage ist, was die unbeaufsichtigte Maschinen-Ausgabe kostet: Witze, die flach fallen, Fachbegriffe, die falsch sitzen, Timing, das rutscht^[6], gehört von genau dem Publikum, das du gerade für dich gewinnen willst. Wo KI hilft, nutze ich sie übrigens selbst als Basis; Regie und Qualitätskontrolle macht ein Mensch.

Wann sich Lokalisierung nicht lohnt

Nischenthema ohne internationales Pendant-Publikum: Der 5×-Markt nützt nichts, wenn dein Thema dort niemanden betrifft.
Host-Persönlichkeit ist das Produkt: Wenn Stimme und Humor nicht übertragbar sind, überträgt auch die beste Lokalisierung das Wesentliche nicht.
Kein Budget für Kontinuität: Eine einmalig übersetzte Folge verpufft; Feeds wachsen mit Regelmäßigkeit.
Reine Reichweiten-Hoffnung ohne Monetarisierungsplan im Zielmarkt.
Und zur Datenlage selbst: Es gibt kaum belegte Erfolgs-Cases mehrsprachiger Podcast-Feeds; der Spotify-Pilot blieb ohne veröffentlichte Zahlen, und auch diese Lücke gehört zur ehrlichen Entscheidungsgrundlage.

Häufige Fragen.

Wie viel größer ist der englischsprachige Podcast-Markt als der deutsche?

Relativ ähnlich aktiv (USA 40 %, DE 34 %, UK 24 % wöchentlich), absolut Welten: ~115 Mio. + ~13 Mio. vs. ~24 Mio. wöchentliche Hörer, grob Faktor fünf^[1]^[3]^[4].

Wie gut ist KI-Dubbing 2026 wirklich?

Gut genug, um Hörer zu täuschen (nur 73 % Erkennungsquote^[5]), und systematisch schwach bei Prosodie, Akzent und Emotion, über alle vier getesteten kommerziellen Systeme hinweg (VOX-DUB, 30.240 Urteile^[6]). Als Basis brauchbar, unbeaufsichtigt veröffentlicht hörbar.

Was kostet es, einen Podcast professionell übersetzen zu lassen?

KI: grob 1–3 $/Minute^[7]^[8]. Human: ab 20 €/Minute (Untertitel) bzw. ab 55 €/Minute (Vollvertonung): 30-Minuten-Folge ab ca. 600 € / 1.650 €. Der Unterschied ist nicht der Minutenpreis, sondern wer die Fehler findet, bevor das Publikum sie hört.

Lohnt sich der Schritt für deinen Podcast?

30 Minuten, kostenfrei: Wir schauen auf dein Thema, deinen Zielmarkt und rechnen ehrlich, inklusive „lass es" als mögliche Antwort.

→ Termin buchen

Quellen.

[1] Edison Research, „The Infinite Dial 2025" (55 % der US-Bevölkerung 12+ monatliche Podcast-Konsumenten, Allzeithoch). edisonresearch.com ↩
[2] Edison Research, „The Podcast Consumer 2025" (40 % wöchentlich; 773 Mio. Hörstunden/Woche, 13+). Die ~115-Mio.-Angabe ist eine Hochrechnung aus 40 % der US-Bevölkerung 12+. edisonresearch.com ↩
[3] ARD/ZDF-Medienstudie 2025 via Media Perspektiven (34 % mind. wöchentlich, 2024: 29 %; Tagesreichweite 14 %). media-perspektiven.de ↩
[4] RAJAR MIDAS Autumn 2025 (24 % der UK-Erwachsenen 15+ hören wöchentlich; Ø 9,0 Std./Woche; ~127 Mio. Std. gesamt). Primär-PDF rajar.co.uk; Aufbereitung via podcastvideos.com. podcastvideos.com ↩
[5] Mai, K. T. et al. (2023), „Warning: Humans cannot reliably detect speech deepfakes". PLOS ONE (n=529; 73 % Trefferquote; Training +3,84 Pp.). journals.plos.org ↩
[6] Toloka (Sep 2025), „VOX-DUB: Benchmarking AI Dubbing" (30.240 menschliche Urteile, 4 kommerzielle Systeme inkl. ElevenLabs; systematische Prosodie-/Akzent-Schwächen, Emotion-vs.-Audioqualität-Trade-off). toloka.ai ↩
[7] ElevenLabs, Pricing (Pläne ab $6/Monat; Dubbing über Credit-System). Abgerufen Juni 2026. elevenlabs.io ↩
[8] Rask AI, Pricing (Pläne $33–150/Monat für 25–300 Min.; Zusatzminuten $3/Min.). Abgerufen Juni 2026. rask.ai ↩
[9] Spotify Newsroom (Sep 2023), „Spotify pilots AI Voice Translation" (Lex Fridman, Dax Shepard, Steven Bartlett; OpenAI-Voice-Tech; Spanisch, dann FR + DE). Keine Erfolgszahlen veröffentlicht (Stand Juni 2026). newsroom.spotify.com ↩
[10] Online-Audio-Monitor 2025 via BVDW (~24 Mio. Podcast-Hörer in Deutschland; 53 Mio. Online-Audio-Nutzer). bvdw.org ↩