Mein Land hat bei der Formulierung des AVS3-Echtzeit-Sprachstandards wichtige Fortschritte gemacht und die Lösung von Tencent wurde ausgewählt-IT Industrie-php.cn

Laut offiziellen Nachrichten der New Generation Artificial Intelligence Alliance hat der Echtzeit-Sprachcodierungsstandard AVS3P10 kürzlich wichtige Fortschritte gemacht. Die Nachricht wurde am 14. Dezember auf dieser Website veröffentlicht.

Am 14. Dezember 2023 fand die 87. AVS-Arbeit statt Gruppentreffen in Chengdu eröffnet. Beim Treffen „Intelligent Media Coding Part 10 Real-time Speech“ (im Folgenden als AVS3P10 bezeichnet) wurde WD 1.0 von der Plenarsitzung überprüft.Die von Tencent vorgelegte technische Lösung wurde als RM0-Basislinie für AVS3P10 Real-Time Speech ausgewählt Codierung.

Mein Land hat bei der Formulierung des AVS3-Echtzeit-Sprachstandards wichtige Fortschritte gemacht und die Lösung von Tencent wurde ausgewählt

Echtzeit-Sprachkommunikationstechnologie (Hinweis auf dieser Website: RTC, Echtzeitkommunikation) wird häufig in kollaborativen Büros, interaktiver Unterhaltung, sozialen Netzwerken und anderen Bereichen eingesetzt. Die oben genannten vielfältigen und umfangreichen Anwendungsszenarien stellen eine Vielzahl technischer Herausforderungen für die Echtzeit-Sprachkommunikationstechnologie dar. Dabei ist die Sprachcodierung mit hoher Qualität, geringer Latenz, geringer Bandbreite und hohem Widerstand ein sehr wichtiger Teil.

Bei einer Coderate von 16-20 kbps können herkömmliche Sprachcodierer wie AVS- und ITU-T-Standards hochwertige Breitbandsprache erzeugen. Mit 30–35 kbit/s können sie hochwertige Ultra-Breitband- und sogar Vollband-Sprache erzeugen. Wenn die Bitrate jedoch weiter reduziert wird (z. B. unter 10 kbit/s), verringert sich die Wiederherstellungsqualität des herkömmlichen Sprachcodierers erheblich, was sich auf das Benutzererlebnis auswirkt.

Basierend auf den oben genannten Anwendungsanforderungen beim 84. AVS Auf einer Konferenz im März dieses Jahres schlugTencent vor, ein Sprachsystemprojekt mit niedriger Bitrate und hoher Qualität für Echtzeit-Sprachkommunikationsszenarien in der AVS-Audiogruppe zu starten. Nach einer Bedarfsanalyse initiierte AVS auf dem 85. AVS-Treffen offiziell das Echtzeit-Sprachcodierungsprojekt AV3P10 und gab über die AVS-Audiogruppe eine technische Ausschreibung heraus. Das Echtzeit-Sprachcodierungsprojekt AVS3P10 wird von Xiao Wei vom Tencent Conference Teana Lab gefördert und gepflegt.

Beim 86. AVS-Treffen überprüfte die Audiogruppe den M7886-Vorschlag „AVS3P10 Speech Coding Reference Model Candidate Technical Plan“, der vom Tencent Conference Tianlai Laboratory eingereicht wurde

Die Überprüfung ergab, dass der Plan die folgenden vier Merkmale aufweist:

Es integriert Technologien der künstlichen Intelligenz wie klassische Signalverarbeitung und tiefe neuronale Netzwerktechnologie und gehört zum AI-Codec
unterstützt niedrige Bitrate, hochwertige Kodierung, Echtzeitkodierung und -dekodierung sowie Multiratenkodierung;
. Die Kreuzvalidierung soll umfassend sein und basiert auf dem subjektiven Qualitätsbewertungssystem ITU-T P.800 DCR. Der subjektive Test deckt reine Sprache, Paketverlust-Sprache, gemischte Sprache und andere Szenarien mit unterschiedlichen Bandbreiten ab und umfasst erstmals Das 3A-verarbeitete Testszenario wird im Maschinentest in die Quellcodierung eingeführt, um die Leistung der AI-Codec-Technologie der neuen Generation in nahezu realen Szenarien zu testen.
Im obigen Testszenario hat

. Subjektive Testergebnisse zeigen, dass AVS3P10 RM0 in mehreren wichtigen Testszenarien wie Breitband und Ultrabreitband MOS-Punkte von mehr als 4,0 erreicht hat, was offensichtliche Vorteile zeigt, wobei die niedrigste Bitrate 5,9 kbps erreichte. AVS3P10 RM0 nutzt die Deep Neural Network-Technologie und verfügt über eine eigene Fähigkeit zur Paketverlustbeschädigung, die die Qualität des Encoders bei schlechtem Netzwerk effektiv verbessert.

Darüber hinaus zeigte AVS3P10 RM0 im objektiven Qualitätsbewertungsexperiment ITU-T P.863 auch erhebliche Vorteile. Zunächst einmal übersteigt der MOS-Wert des AVS3P10 RM0 bei allen acht Testbitraten 4,0 und erreicht einen Maximalwert von 4,45. Die Qualität des AVS3P10 RM0 ist mit der Leistung herkömmlicher Signalverarbeitungs-Encoder wie OPUS und EVS bei mittleren und hohen Bitraten vergleichbar und erreicht Trägerqualität. Im Bereich der AI-Codecs hat AVS3P10 RM0 einen Qualitätsvorteil von mehr als 0,6 MOS bei ähnlichen Bitraten. Die obigen Testergebnisse zeigen, dass AVS3P10 RM0 die höchste Stufe aktueller KI-Codecs darstellt.

Die New Generation Artificial Intelligence Alliance gab an, dass die Echtzeit-Sprachcodierung AVS3P10 als eine neue Generation von Sprachcodec-Technologiestandards eine wichtige Ergänzung zum ist AVS-Standardreihe.

Zukünftig wird das Echtzeit-Sprachcodierungsprojekt AVS3P10 gemäß dem festgelegten Plan gefördert.

Es wird erwartet, dass die Standardisierungsarbeiten Mitte 2024 abgeschlossen sein werden.

Werbeaussage: Dieser Artikel enthält externe Sprunglinks (einschließlich, aber nicht beschränkt auf Hyperlinks, QR-Codes, Passwörter usw.), die dazu dienen, mehr Informationen bereitzustellen und Screening-Zeit zu sparen. Die Linkergebnisse dienen nur als Referenz. Bitte beachten Sie, dass alle Artikel auf dieser Website diese Aussage enthalten

Beschweren Sie sich über Hydrologie Ich möchte den Fehler korrigieren

Das obige ist der detaillierte Inhalt vonMein Land hat bei der Formulierung des AVS3-Echtzeit-Sprachstandards wichtige Fortschritte gemacht und die Lösung von Tencent wurde ausgewählt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!