Die Stimme entscheidet maßgeblich über die Wirkung eines Erklärvideos. Zuschauer erzielen bei professionell vertonten Videos eine um 25 bis 40 % höhere Informationsaufnahme als bei textbasierten Inhalten. Gleichzeitig ist die Vertonung der Schritt, bei dem die meisten Fehler passieren. Dieser Leitfaden erklärt, worauf es bei der Vertonung ankommt.
Warum die Sprecherstimme so wichtig ist
Ein Erklärvideo hat eine klare Aufgabe: komplexe Sachverhalte verständlich machen. Die Animation transportiert Struktur und visuellen Kontext. Die Stimme liefert die inhaltliche Führung, setzt Betonungen und erzeugt das emotionale Grundgefühl.
Forschungen zum Multimedia-Lerneffekt zeigen, dass die Kombination aus visuellem und auditivem Kanal die Lernleistung signifikant steigert. Allerdings nur, wenn die auditive Komponente professionell produziert ist. Minderwertige Sprachqualität lenkt ab und senkt die Informationsaufnahme.
Welcher Sprechstil eignet sich?
Sachlich-kompetent: Vertrauenswürdig und informativ. Ideal für B2B, Technik, Finanzen, Medizin.
Warm-nahbar: Einladend und zugänglich. Ideal für B2C, Gesundheit, Bildung, Onboarding.
Dynamisch-motivierend: Energisch und aktivierend. Ideal für Startups, Produktlaunches.
Ruhig-erklärend: Beruhigend und geduldig. Ideal für Medizin, Versicherung, Behörden.
Für die meisten Unternehmens-Erklärvideos hat sich "sachlich-kompetent mit warmer Note" als Standard etabliert. Die häufigste Fehlentscheidung ist eine zu energische Stimme für ein erklärendes Thema.
Sie suchen einen Sprecher? Gratis Demo bestellen · Kontakt aufnehmen
Wie lang sollte ein Erklärvideo sein?
Die optimale Länge liegt bei 60 bis 120 Sekunden für Marketing-Erklärvideos und 3 bis 5 Minuten für Schulungsinhalte. Die Zuschauerbindung sinkt ab 2 Minuten signifikant: Bei 60-Sekunden-Videos schauen 68 % bis zum Ende, bei 5-Minuten-Videos nur noch 25 %.
Normales Sprechtempo: 130 bis 160 Wörter pro Minute. Ein 90-Sekunden-Video benötigt etwa 195 bis 240 Wörter. Lassen Sie im Script bewusst Pausen für visuelle Übergänge und Animationen.
Was kostet die Vertonung?
Für ein typisches Erklärvideo (60 bis 120 Sekunden) mit Online-Nutzung zahlen Sie bei einem professionellen Sprecher mit eigenem Studio zwischen 300 und 800 Euro. Bei weltweitem Buyout (Flatrate-Modell) liegt der Preis am oberen Ende, enthält aber alle Nutzungsrechte.
Zum Vergleich: Die Produktion des Videos selbst kostet für 60 Sekunden typischerweise 3.000 bis 10.000 Euro. Die Vertonung macht nur 5 bis 15 % der Gesamtkosten aus, bei einem überproportional hohen Einfluss auf die Wirkung.
Wie läuft die Vertonung ab?
Phase 1: Script finalisieren. Vor der Vertonung muss das Script final und intern freigegeben sein. Lesen Sie es laut vor und stoppen Sie die Zeit.
Phase 2: Sprecher briefen. Script zusammen mit Briefing senden: gewünschter Stil, Tempo, Ausspracheanweisungen, Referenzvideo oder Storyboard.
Phase 3: Aufnahme. Bei einem 90-Sekunden-Video dauert die Aufnahme inklusive verschiedener Takes circa 30 bis 45 Minuten.
Phase 4: Lieferung und Abnahme. Audiodatei als WAV und/oder MP3. Die erste Korrekturrunde ist bei professionellen Sprechern üblicherweise inklusive.
Phase 5: Integration. Ihr Videoproduktionsteam integriert die Aufnahme und passt Timing und Animationen an die Sprechpausen an.
Gesamtdurchlaufzeit bei finalem Script: 1 bis 3 Werktage.
Briefing-Tipps speziell für Erklärvideos
Timing-Vorgaben: Markieren Sie, welcher Textabschnitt zu welcher Szene gehört und wie viele Sekunden zur Verfügung stehen.
Betonungen: Markieren Sie Schlüsselbegriffe, Produktnamen und Call-to-Actions mit Fettdruck im Script.
Pausen: Notieren Sie [PAUSE] oder [2 Sek. Pause] an gewünschten Stellen. Das hilft dem Sprecher beim Timing.
Fachbegriffe: Erstellen Sie eine Ausspracheliste für branchenspezifische Begriffe und Abkürzungen.
Häufig gestellte Fragen
Muss das Video fertig sein, bevor der Sprecher aufnimmt?
Nein. In den meisten Fällen wird zuerst die Sprachaufnahme erstellt und dann die Animation an das Timing der Stimme angepasst. Dieser "Audio first"-Workflow liefert natürlichere Ergebnisse.
Sollte die Stimme männlich oder weiblich sein?
Das hängt von Zielgruppe und Markenstrategie ab. Studien zeigen keinen generellen Wirkungsvorteil einer bestimmten Stimme. Entscheidend ist die Passung zur Marke und zum Thema.
Kann der Sprecher auch den Text optimieren?
Einige erfahrene Sprecher bieten Textoptimierung als Zusatzleistung an. Sie erkennen Formulierungen, die beim Vorlesen sperrig klingen, und schlagen flüssigere Alternativen vor.
Wie viele Korrekturrunden sind üblich?
Bei klarem Briefing sind null bis eine Korrekturrunde der Normalfall. Die erste Korrektur ist üblicherweise inklusive. Umfangreichere Überarbeitungen werden separat berechnet.