Machine Power Report
Herausgeber: Yang Wen
Dieses neue KI-Sprachmodell, Fish Speech, hat einen hervorragenden Imitationston.
Vor kurzem ist die KI-Sprachspur plötzlich lebhaft geworden.
Vor mehr als einem Monat wurde ChatTTS, bekannt als „Obergrenze für Open-Source-Sprach-TTS“, populär.
Wie beliebt ist es?
In nur drei Tagen sammelte es 9,2.000 Sterne auf GitHub, führte einst die Liste der GitHub-Trends an und dominierte weiterhin die Liste.
Nicht lange danach startete Byte auch ein ähnliches Projekt, Seed-TTS, mit dem gleichen Slogan „Erzeugung natürlicher und echter Sprache“.
In den letzten Tagen ist ein neuer Spieler in diesen Track eingestiegen – Fish Speech.
Es wird berichtet, dass das Modell nach 150.000 Stunden Datentraining drei Sprachen beherrscht: Chinesisch, Englisch und Japanisch. Seine Sprachverarbeitung kommt dem menschlichen Niveau nahe und seine Unterstützung für Chinesisch ist sogar noch besser –
Der Beamte kann nicht anders, als Shao-Demo zu sagen –
Chinesischer Satz: Die Lichter der Welt spiegeln sich im See und ihr Verlangen lässt das stille Wasser kräuseln. Wenn der Preis nur Einsamkeit ist, dann lass diesem Wunsch freien Lauf. Es fließt in die Welt, die sie betrachtet, und in ihre Augen, so klar wie Seewasser.
Zhongli, The Power of Machines, 15 Sekunden von fortschrittlicher Technologie, Evolution Die Entwicklung künstlicher Intelligenz stellt eine monumentale Errungenschaft dar, die die Grenzen dessen, was Maschinen leisten können, ständig erweitert. Von der Entschlüsselung komplexer Datenmuster bis hin zum autonomen Fahren von Autos sind die Anwendungen von KI umfangreich und vielfältig Sprechen Sie Englisch, Power of Machines
, 25 SekundenVideolink://m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9
Viele Internetnutzer sagten: Obwohl es ein bisschen elektronisch ist, ist der Effekt bereits sehr gut, und der Tonfall wird den Menschen kein Unbehagen bereiten.
Einige Internetnutzer erinnerten jedoch daran, dass dieses Projekt zwar Open Source, aber nicht kommerziell erhältlich sei. -1-
Dokumentarfilme erklären und Zungenbrecher erzählen, funktioniert das?
Fish Speech ist ein Open-Source-Text-to-Speech-Modell, das von der Fish Audio Company entwickelt wurde. Berichten zufolge verfügt das Modell nur über 100 Millionen Parameter und kann problemlos auf persönlichen Geräten ausgeführt und feinabgestimmt werden.
Offizieller Website-Link: https://fish.audio/zh-CN/text-to-speech/
Das Design der offiziellen Website-Oberfläche ist einfach. In der Spalte „Entdecken“ gibt es verschiedene von Internetnutzern geschulte Stimmen, wie z wie Ding Zhen, Trump, Lei Jun, Deng Ziqi, Dong Yuhui, Shan Tianfang usw. sowie zweidimensionale Stimmen wie AD Senior Sister, Liuying usw.
Als nächstes führen wir die eigentliche Auswertung durch. Der erste ist der Alternativkommentar „Animal World“. Vor nicht allzu langer Zeit gab es einen Post-00er-Blogger @dimensionalCzoo, der aus der Branche ausbrach, indem er „Animal World“ auf verrückte Weise erklärte. Zum Beispiel stellte der Blogger in der Folge „Owl Zhang Ba Da“ ein Tier namens „Kleine Eule“ vor, und zwar auf eine Art Erklärung, die zu einem Teil ernst, zu zwei Teilen bizarr, zu drei Teilen humorvoll und zu vier Teilen unerklärlich ist. Videolink: //m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9 Wir werden die „dokumentarische Erzählung“-Stimme in Fish Speech verwenden, um eine Synchronisation für diesen schwerkranken Texter zu erstellen. Die Grüne Gottesanbeterin ist eigentlich sehr süß, extrem süß, knusprig und riecht nach Hühnchen, aber das alles hat nichts mit der Wachtel zu tun, weil sie sich nicht schützen kann, und der Gelbbauchfalke sagt, sie duftet wirklich. Gelbbauchfalken kommen in ganz Südamerika vor. Sie haben ein ausgezeichnetes Sehvermögen und können Dinge aus einer Entfernung von 10 Zentimetern sehen, also ist unser heutiger Protagonist es nicht. Der Steinkauz (xiao), in der Welt als Eulen-Frischfleisch bekannt, ist genau wie mein Cousin, weniger als 30 Zentimeter groß, sehr süß. Wie das Sprichwort sagt: „Ein Tiger wird von Hunden gemobbt, wenn er fällt, und eine Eule ist in freier Wildbahn nicht so gut wie ein Huhn.“ Die kleine Kanincheneule wird von ihren Nachbarn wegen ihrer schlechten Jagdfähigkeit oft ausgelacht. Aber wir lassen uns nicht entmutigen, da wir keine Nahrung finden, werden wir nach Nahrung suchen. Wir haben auch die Stimmen von Ding Zhen und Deng Ziqi ausgewählt, um Zungenbrecher zu erzählen. Videolink: //m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9 Lassen Sie Trump englische Zungenbrecher sprechen. Wenn Sie verstehen, sagen Sie „verstehen“. Wenn Sie es nicht verstehen, sagen Sie „nicht verstehen“, wie kann ich dann verstehen, dass Sie es verstehen? Fish Speech English Tongue Twister, The Power of Machines, 14 Sekunden //m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9 -2- Drei TTS-Modellschlacht Fish Speech Reading Novel, The Power of Machines, 23 Sekunden Chinesischer Text: Okay, hahahaha, Leute, die gerne lachen, werden kein Pech haben. Ich hoffe, du lächelst jeden Tag. Fish Speech, die Kraft der Maschine, 11 Sekunden //m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9 ChatTTS ,The Power of Machines,6 Sekunden //m.sbmmt.com/link/e056e52c8dcd019a63e6a3f169892cc9 Da Bytes Seed-TTS nicht persönlich erlebt werden kann, haben wir das offizielle Beispiel verwendet. Seed-TTS, Power of the Machine, 6 Sekunden Diese drei TTS-Modelle haben ihre eigenen Vorzüge, wenn wir ihre Stärken einordnen müssten, hat Seed-TTS die natürlichste Satzsegmentierung und Stimmintonation von ChatTTS Obwohl Fish Speech noch fehlt, überzeugt es mit anpassbaren Sounds. Link - https://fish.audio/zh-CN/text-to-speech/ https://github.com/fishaudio/fish-speech https : //chattts.com/ https://bytedancespeech.github.io/seedtts_tech_report/ https://github.com/BytedanceSpeech/seed-tts-eval
Das obige ist der detaillierte Inhalt vonTatsächlicher Test des neuesten KI-Sprachmodells: Wenn man Trump und Ding Zhen bittet, Zungenbrecher zu sagen, kann man sagen, dass sie gefälscht sind, aber die Sätze sind in Stücke gebrochen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!