slashCAM
Administrator
Administrator
Beiträge: 11264

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von slashCAM »


Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters a...
Bild
Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Das ist sicherlich ein Thema, keine Frage. Nur hat die Sprache "Deutsch" noch eine Galgenfrist. Es gibt nichts, das in deutsch wirklich gut klingt. Geschweige denn mit Emotionen. Von daher haben die deutschsprachigen Sprecher noch die Möglichkeit, die Rahmenbedingungen mitzugestalten. Abgesehen davon hat die deutsche Sprecherbranche schon immer nur ein einziges Thema gehabt: "Geld". Angefangen mit "Du bist ja kein professioneller Sprecher" und jetzt "KI". YT hat gezeigt, dass "authentisch" auch mit anderen Mitteln geht. Professionelle Sprecher werden immer einen Platz haben, davon bin ich überzeugt. Aber die Brot und Butter Jobs, werden weniger. Und wenn wir mal in der Geschichte zurück gehen: bei Derrick habe ich schon immer gewusst, das muss doch eine Computerstimme sein! :-)



Viteq
Beiträge: 7

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Viteq »

Letztes Jahr hatte ich in einem Projekt ein AI-Voiceover Tool gesucht, das auch das Sprechervideos generieren kann.
Hatte mich für Synthesia entschieden und es nicht bereut: https://www.synthesia.io/
Für 30 US Dollar gab es 10 Minuten Audio/Video. Es ist eine so unglaubliche Zeit/Geldersparnis und die Qualität ist schon sehr gut.
Manchmal gibt es allerdings Wörter, die die Software nicht richtig aussprechen kann. Bei deutscher Sprache öfters als in Englisch.



CineMika
Beiträge: 158

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von CineMika »

Vorausgesetzt die Qualität stimmt, gäbe es durchaus ein sinnvolles Szenario

Im Falle eines verstorbenen bekannten Synchronsprechers, könnten die zugehörigen Original Schauspieler noch in gewohnter Manier synchronisiert werden, vorausgesetzt die Erben sind damit einverstanden.
Es ist immer sehr befremdlich und kontraproduktiv, wenn eine sehr bekannte Figur auf einmal eine andere Stimme hat



Frank Glencairn
Beiträge: 23503

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Sapere aude - de omnibus dubitandum



Skeptiker
Beiträge: 6021

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Skeptiker »

Frank Glencairn hat geschrieben: Mo 22 Mai, 2023 06:41 -> freie Thorsten-Stimme
Als Sprecher-Stimme wäre das nicht meine erste Wahl. Aber dann denkt man sich "Kost' ja nichts - warum eigentlich nicht!".
KI als Methode, sich stimmlich zu vervielfachen und als "Mem" (ist 'Muster' der richtige Ausdruck?) über die Welt zu verstreuen (Thorsten überall). Willkommener Selbst-Multiplier für Narzissten und Egozentriker?



macaw
Beiträge: 1334

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Wegen des KI Beitrags zur NAB hatte ich gerade mal so rumgeschaut. Über Thorsten stolpert man dabei unbedingt. Ich glaub allerding eher weniger dass er sich damit in den Vordergrund spielen will. Ich glaube eher, dass der das Thema geil findet und es pushen will.
Denn ... es fällt mir schwer eine Sprach KI zu finden, die lokal funktioniert. Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen. Bei der Suche ist es echt eng geworden. Ich hätte auch in ein kommerzeilles Produkt investiert, wenn es denn lokal installierbar gewesen wäre. Aber fast nix, nada. Und dann bleibt doch wieder fast nur OpenSource, und wenn es dann deutsch werden soll, ist Thorsten eben eine der wenigen Optionen. Aber selbst mit Open Source ist das Installieren einer Sprach KI kein NoBrainer wie bei Automatic1111/StableDiffusion oder Oobabooga/llama und Co.
Oobabooga installiert unter Umständen ein text to speech system mit. Klang aber nicht. Also das, was hier gerne in den News als geile Sprach Ki angefeuert wird, hab ich qualitativ eher selten gefunden. Bei einigen Cloud basierten Diensten muss ich sagen, kam bei den Anjuck-Demos im Web tatsächlich etwas raus was ... cool klang. Aber was viele da nun bei Youtube unter ihre Videos zimmern klingt doch noch eher nach Maschinengewehr.

Hat irgendjemand einen guten Tip für eine lokale Sprach-KI die so nach 2023 klingt? Entweder kommerziell (unter 500 Eu wäre schon angemessen) oder besser OpenSource?
Grüße,
Frankie



Frank Glencairn
Beiträge: 23503

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

Ich hab auch noch nix für Deutsch gefunden, daß nicht entweder, ziemlich kompliziert (für Nichtprogrammierer) zu installieren und bedienen ist, oder halt Online mit eher unbefriedigten Ergebnissen.

Aktuell halte ich ich mit Google TTS über Wasser, ist IMHO aktuell das beste für Deutsch - ist aber noch nicht ready for prime time.
Sapere aude - de omnibus dubitandum



macaw
Beiträge: 1334

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von macaw »

blindcat hat geschrieben: Di 23 Mai, 2023 07:06 Es nützt leider nichts wenn die ganze Welt auf einer Ki Welle schwimmt nur um betriebswirtschaftlich organisierten Unternehmen noch mehr Daten in den Rachen zu schmeissen.
Eine Firma, die nicht betriebswirtschaftlich organisiert ist, ist entweder bald Pleite und/oder hat sehr bald große Probleme mit dem Finanzamt, weil es sich dann um "liebhaberei" handelt (ist tatsächlich so definiert, wenn keine Gewinnerzielungsabsichten vorliegen) - spaß beiseite, ich verstehe vollkommen, was Du meinst, ich denke bei solchen Firmen primär an Gewinnmaximierung und ich erkenne, welche potentiell existenzbedrohende Situation sich Firmen da schaffen, wenn sie einen zunehmend wachsenden Anteil ihrer Produktionsprozesse irgendwelchen Unternehmen am anderen Ende der Welt anvertrauen. Je nach Komplexität dürfte es da nicht wenige Fälle geben, wo der Ausfall oder Angriff der Dienste die sofortige Pleite bedeuten könnte, bspw. wenn man sich in der Endfertigung befindet und auf einmal absolut notwendige Änderungen des Sprechertextes gebraucht werden bzw., wenn das soweit ist, k.i. generierte Bilder, Videos, Musik etc. Ich stecke in diesem Moment z.B. in der Endfertigung eines sehr umfangreichen Projekts für eine gewisse deutsche Airline, wo morgen ein Event in Frankfurt stattfindet wo es gespielt werden muss, es wird noch immer an letzten Schnittänderungen, Motion Design, Sounddesign, Online und Grading gearbeitet...



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Ja,
nicht überbewerten den Satz :-)

Grundsätzlich habe ich nichts dagegen, dass Firmen Geld verdienen. Ich würde mich ja auch freuen, wenn es einen guten Tipp für eine Kaufsoftware in dem Bereich geben würde.
Grundsätzlich bin ich aber kein Freund davon, dass die Menschen sich das "kostenlose" Internet durch ihre Datenspenden kaufen, oder sogar trotz Datenspende noch monatliche Gebühren zahlen. Also bei allen möglichen Services seit annodazumal. Punkt.
Bei den KIs sehe ich natürlich das Kernproblem. Trainingsdatensätze. Und wenn es quasi fertig ist, noch mehr Datensätze zum Verfeinern. Das Online Services da das Instrument schlechthin sind, liegt irgendwie auf der Hand. Habe ich eine lokale Installation könnte maximal (wenn den Unterbau und Model dafür ausgelegt sind) ein lokales Training oder (Weiter)-Learning stattfinden. Das ist weder effizient noch hat eben der Hersteller etwas davon.
Wie dem auch sei. Ich würde es gerne lokal haben. Eine Online Demo ist mir beim rumsuchen untergekommen (hab mir natürlich nicht gemerkt welche). Die war wirklich ... gut. Ich glaube es war ein englisches Modell und es sprach wirklich natürlich. Manchmal ist irgendwie nicht klar ob da alte TTS Engines verwendet werden oder wirklich KI/AI basierte zum Einsatz kommen. Also bei dem Grad von Natürlichkeit möchte ich mir jedenfalls ein gutes KI Modell vorstellen. Leider war eben auch das ein Online Service bei dem man einen Zugangsvertrag abschließen soll. Schade.

@rob: Ihr habt ja seit einiger Zeit eine sehr intensive Berichterstattung von der KI Front. Ich finde auch Forschung und Paper spannend, aber bei dem ganzen Hype müsste man doch annehmen, dass es einen riesigen Sack voll Produkte gibt? Und vielleicht auch ein paar lokale? Aber wie man auch guckt, es sieht so aus als ob eine Marktübersicht für letzteres tatsächlich sehr, sehr überschaubar wäre. Also so, wie Frank Glencairn es auch gesagt hat, es sollte schon dann auch leicht installierbar sein. Nicht: installieren sie erst Jupyter Notebooks, dazu noch drei andere Python ENV Umgebungen, installieren sie GIT und melden sie sich an .... etc. Soetwas gehört nicht zwingend zu dieser Kategorie. Nicht dass es nicht machbar wäre, aber ... meistens steht das Ergebnis nicht im Verhältnis zum Aufwand. Denn so überraschend gute Ergebnisse die KIs auch schon produzieren, so oft ist doch noch Müll dabei. Sei es ein unbrauchbares Bild in einem GAN, ein völlig gelogener Text auf GPT4 oder eben ein Sprecher der eher vom Melmac stammt als das er als Ersatz für echtes sprechen taugt. Klar, wenn nach drei Tagen Prompt-Tuning dann eben doch eines dieser Aha-Effekt Dinger aus der KI kommt, dann heisst es, die kann das. Hab ich dann aber vielleicht in 2 einhalb Tagen mit nem Grafiktablett und nem alten (lokalen, gekauften, nicht gemieteten, nicht um Onlineservices beschnittenem (wie Gesichtserkennung und Kartenservice in Lightroom CS6)) Photoshop auch hinbekommen.

Um auch das noch einmal klarzustellen, ich fände das Verdrängen von Sprechern durch KIs auch doof. Ich stelle mir nur gerade vor, dass ich ein Video sowohl auf deutsch als auch auf englich bereitsstellen würde. Das wäre ein HowTo zum Umbau von Gitarrenverstärkern. Wenn ich eine englische KI Sprechervoice hätte, würde ich die nehmen um dem Zuschauer mein denglisch zu ersparen. Einen bezahlten Sprecher würde ich dafür nicht einkaufen. Ich ersetze ihn also nicht. Ich würde nur die englische Ausprache etwas "beautyfien" :-) Und selbst wenn eine gute deutsche Stimme bei wäre, würde ich den deutschen Text dann doch lieber selbst einsprechen. Weil da spricht nix gegen :-)
So. Sorry jetzt habe ich mich ausgeheult. Wollte schon immer mal nach Tips für existierende lokale KI Anwendungen fragen, hatte aber immer mein PW nicht im Kopf.
Liebe Grüße,
Frankie



ChrisS
Beiträge: 102

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von ChrisS »

Letztendlich ist es nicht aufzuhalten. Ob gut oder schlecht, für den einen oder anderen, danach fragt niemand. Siehe Studer-Revox, die Ende der 90er keine einzige Bandmaschine mehr verkauft haben und pleite gingen. Heute sind sie wieder da! Also, es hilft ja nix zu heulen - man sollte eher seine Fähigkeiten und Möglichkeiten nutzen, sich neuen Gegebenheiten anzupassen, so man diese nicht beeinflussen oder verhindern kann. Jetzt liegt es an den Sprechern, sich neu zu erfinden, anstatt den Laden zu zumachen.



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Was die Sprecher angeht, wäre es eine gute Idee wenn die Agenturen tätig werden und Modelle ihrer Sprecher erstellen, die schützen lassen und sie dann alternativ zur Studio-Buchung angemessen zur Verfügung stellen. Dann wäre dem Sprecher und macaw in seinem Setting geholfen. Vermutlich liegt der Knackpunkt in der Formulierung "schützen lassen".

Ansonsten na klar interssiert mich das auch sehr. Deswegen suche ich ja lokale Varianten.
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
lg
Frankie



Frank Glencairn
Beiträge: 23503

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von Frank Glencairn »

blindcat hat geschrieben: Di 23 Mai, 2023 17:07
@Frank: Stable Diffusion mit Automatic 1111 läuft ziemlich ... einfach. Wenn es mal um das ausprobieren geht. Und der Installer von Oobabooga (ChatGPT artige Textmodelle) läuft gerade ebenso unkompliziert durch. Beide Varianten installieren sich offenbar ohne Systemeingriff. Wenn es nicht gefällt, Ordner löschen und weg ist es.
Ich weiß, hab ich alles schon durch (und wieder gelöscht), war spannend und unterhaltsam, hab allerdings für beides (außer Spieltrieb) keine wirkliche Anwendung - was ich brauche ist TTS und Voice Cloning in Deutsch.
Sapere aude - de omnibus dubitandum



blindcat
Beiträge: 34

Re: Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Beitrag von blindcat »

Sag Bescheid wenn Dir was unterkommt ... :-)



 Aktuelle Beiträge [alle Foren]
 
» Discount auf die Cinema 6K
von klusterdegenerierung - Di 8:00
» Was schaust Du gerade?
von klusterdegenerierung - Di 7:48
» Lumix S FF Kameras und der APS-C Modus is amazing and magic ;)
von Frank Glencairn - Di 7:44
» Bergliebe an der Ostsee
von Franz86 - Di 7:42
» Aufstieg und Fall von GoPro
von TomStg - Di 7:26
» Rot ist eigentlich nicht meine Farbe
von klusterdegenerierung - Mo 23:48
» Was macht ein SHOWRUNNER?
von Nigma1313 - Mo 23:30
» Ein paar Resolve-Tricks
von rush - Mo 22:36
» HORIZON
von iasi - Mo 21:29
» Gerücht: Panasonic bringt ultrakompakte Full Frame-VLogger-Kamera
von rush - Mo 21:27
» Wie in Clamshell Mode starten?
von rush - Mo 20:12
» Das Deutsches Dorf Namhae
von 7River - Mo 20:05
» Neue Zcam E2-M5G
von Rick SSon - Mo 19:19
» Fujifilm GFX- und X-Kameras werden Content Credentials unterstützen
von Blackbox - Mo 16:53
» Rode Stereo VideoMic Pro am iPhone 15 Pro anschließen.
von 123oliver - Mo 16:24
» Netflix: Empfohlene Monitore für Farbkorrektur und mehr: iPad Pro als günstige Option?
von Axel - Mo 15:40
» Brauche euren Rat wegen iPhone
von MLJ - Mo 15:30
» Thema Overheating.
von pillepalle - Mo 14:15
» Panasonic S5 - Allgemeine Fragen, Tipps und Tricks, Zeig deine Bilder/Videos usw.
von Darth Schneider - Mo 13:42
» Erster Trailer zu Francis Ford Coppolas Megalopolis erschienen
von iasi - Mo 12:29
» DJI Osmo Action 4 vorgestellt - größerer Sensor und GPS-Bluetooth-Fernsteuerung
von -paleface- - Mo 11:51
» Nauticam EMWL Objektive
von benedika - Mo 11:27
» Rode Wireless Me nach Firmwareupdate ausser gefecht
von Jellybean - So 18:55
» SIGMA Firmwareupdate 150-600mm 1.2
von blueplanet - So 18:05
» HDD Speedmessungs Frage
von MK - So 16:28
» Sony FX3, MacBook Air M3, Panasonic S5IIX, SmallRig DH10 Stativkopf: Was hat sich mobil bewährt?
von HerrWeissensteiner - So 13:08
» Putin in Cannes
von Bluboy - So 12:07
» SIGMA 24-70mm F2.8 DG DN II | Art für L- und E-Mount - Blendenring und HLA-AF
von Bildlauf - So 11:53
» FUJIFILM GFX100S II: Stabilisierte 102-Megapixel für 5.499 Euro
von rush - So 10:07
» Blackmagic URSA Cine 12K - 16 Blendenstufen für 15.000 Dollar!
von iasi - So 9:38
» Werbung - es geht auch gut ;) Sammelthread
von 7River - So 7:22
» iPhone ND Filter oder ähnlich in der Mittagssonne
von iasi - Sa 9:00
» Sony A7S III erste Erfahrungen, Bugs, Problemlösungen,...
von rush - Fr 21:34
» Dehancer Pro - Filmsimulation auf höchstem Niveau
von MK - Fr 19:35
» Apple Vision Pro - Bereits nachlassende Nachfrage in den USA?
von R S K - Fr 17:00