


Ximalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Ximalaya durchbricht das Problem der Sprachüberlappung und gewinnt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Kürzlich endete die Multi-Channel-Multi-Party-Conference-Transcription-Challenge (M2MeT2.0) der internationalen Top-Sprachkonferenz ASRU (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) 2023 und der Himalayan Everest erfolgreich Das Labor hat hervorragende Ergebnisse erzielt.
Es ist erwähnenswert, dass dies nicht das erste Mal ist, dass Himalaya an der M2MeT Challenge von ASRU teilnimmt. Bei der ersten M2MeT Challenge kooperierte Ximalaya mit der University of Science and Technology of China und gewann den dritten Platz im Speaker-Log-Track und erreichte eine Log-Fehlerrate von nur 4,05 %. Bei der ersten Herausforderung verwendete die Evaluierung die Zeichenfehlerrate (CER) als Messgröße und transkribierte nur Audio in Text, ohne Sprecherbezeichnungen zu berücksichtigen. Basierend auf dem Erfolg der ersten Sitzung wird sich die M2MeT2.0 Challenge auf die sprecherbezogene Bewertung konzentrieren, die praktische Umsetzung von Spracherkennungssystemen für mehrere Sprecher fördern und zwei Unterspuren einrichten: begrenzte Daten und unqualifizierte Daten.
Um dieser Herausforderung zu begegnen, begann das Himalayan Everest Laboratory mit dem Grundgerüst der Spracherkennung und startete technische Untersuchungen in der Aliasing-Spracherkennungstechnologie und der Sprecherprotokollierungstechnologie. Ximalaya erzielte sowohl im begrenzten Datensatz als auch im offenen Datensatz der M2MeT2.0 Challenge hervorragende Ergebnisse auf dem ersten Platz.
Der diesjährige M2MeT2.0 Challenge-Datensatz enthält reale, multiszenario- und multimodale Großdaten, die eine Vielzahl von Konferenzräumen unterschiedlicher Größe und Aufteilung abdecken, verschiedene Möbel, regelmäßige Treffen mit unterschiedlichen Themen und verschiedene Innengeräusche simulieren . Diese überlappenden Geräusche wie menschliche Stimmen, Fernsehgeräusche, Geräusche von Ventilatoren und Klimaanlagen, Tastaturgeräusche, Geräusche beim Öffnen/Schließen von Türen, Blasengeräusche usw. erhöhen den Schwierigkeitsgrad des Spiels. Durch die gleichzeitige Verwendung eines Mikrofonarrays zur Aufnahme von entfernten Geräuschen und eines Headset-Mikrofons zur Aufnahme von nahen Geräuschen wird eine genaue Transkription der Sprache des entsprechenden Sprechers gewährleistet. Dieser Datensatz ist von großer akademischer Bedeutung für die Untersuchung von Spracherkennungs- und Sprachüberlappungsproblemen bei mehreren Sprechern und stellt reale und vielfältige Datenressourcen für die Suche nach Lösungen auf industrieller Ebene bereit.
Alle Sprecher im M2MeT2.0 Challenge-Datensatz sind chinesische Muttersprachler. Himalaya beteiligt sich aktiv durch eine Kombination aus Industrie, Wissenschaft und Forschung und engagiert sich für die Entwicklung der lokalen Spracherkennungstechnologie in China. Bei der M2MeT2.0 Challenge demonstrierte Himalaya eine hervorragende Sprecher- und Spracherkennungstechnologie (ASR) und demonstrierte eine hervorragende Leistung. Das Team des Everest Laboratory nutzte selbst entwickelte Sprechererkennungs-, Sprachverbesserungs- und Spracherkennungsmodule, um mit Optimierung und Erfahrung bedeutende Durchbrüche zu erzielen in Sprachüberschneidungen und Umgebungen mit mehreren Sprechern erstellt. Durch die Kombination von Deep-Learning- und neuronalen Netzwerkmodellen ist das Himalayan Everest Laboratory in der Lage, die Sprache mehrerer Sprecher in Echtzeit zu transkribieren und genau zu identifizieren und zu trennen.
Ximalaya-bezogene Technologien wurden nicht nur bei der ASRU 2023 M2MeT2.0 Challenge verifiziert, sondern auch bei der Ximalaya AIGC-Inhaltsproduktion eingesetzt und gestärkt. Derzeit wird die Ximalaya Automatic Speech Recognition (ASR)-Technologie häufig in der KI-Skriptfunktion der Ximalaya-App verwendet. Sie transkribiert den Sprachinhalt ohne Skripte in der Himalaya-Plattform und gibt den entsprechenden Text aus, wodurch es für Zuhörer einfacher wird, besser zu sprechen den Sprachinhalt verstehen. Gleichzeitig nutzt die KI-Manuskriptfunktion von Es ist bequemer, das Erlebnis des Inhaltskonsums durch gleichzeitiges Zuhören und Ansehen zu genießen.
Himalaya betreibt seit vielen Jahren intensive Forschung auf dem Gebiet der KI-Sprachtechnologie. Sein Everest-Labor konzentriert sich seit langem auf Forschung und Innovation in den Bereichen Sprachsynthese, Emotionsanalyse, Spracherkennung und anderen Bereichen. Durch die Teilnahme an der ASRU 2023 M2MeT2.0 Challenge und den Gewinn der Meisterschaft festigte Himalaya seine führende Position im Bereich der Sprachtechnologie weiter und demonstrierte seine hervorragende Fähigkeit, komplexe Sprachszenarien zu lösen.
Als von den Nutzern geliebte Online-Audioplattform verfolgt Himalaya seit jeher das Konzept, die Kultur durch Technologie zu stärken und Technologie kontinuierlich mit Erstellern und Nutzern zu integrieren, um die Effizienz der Inhaltsproduktion zu verbessern und ein hervorragendes Inhaltserlebnis zu bieten. Ximalaya wird auch weiterhin fortschrittliche und intelligente Sprachtechnologie mit Ton durch technologische Stärkung und die Integration von Industrie, Wissenschaft und Forschung kombinieren, um Benutzern hervorragende Produkte und Dienstleistungen im Bereich Sprachtechnologie anzubieten.
Das obige ist der detaillierte Inhalt vonXimalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Aber wir müssen wahrscheinlich nicht einmal 10 Jahre warten, um einen zu sehen. Was als erste Welle wirklich nützlicher, menschlicher Maschinen angesehen werden könnte, ist bereits da. In den letzten Jahren wurden eine Reihe von Prototypen und Produktionsmodellen aus t herausgezogen

Von der Vibe -Codierung bis zum Debüt von Codeskiro erfolgt zu einer Zeit, in der die Softwareindustrie zu einem Anstieg der „Vibe -Codierung“ steigt - eine Technik, bei der Entwickler natürliche Sprachaufforderungen verwenden, um schnell funktionale Anwendungen zu erstellen. Während viele Entwickler a

Der Start eines neuen KI -Beratungsdienstes durch OpenAI unterstreicht eine wichtige Realisierung von über 10 Millionen US -Dollar: Im Jahr 2025 liegt der tatsächliche Wert in AI nicht nur für den Zugriff auf Modelle, sondern auch, wie effektiv sie eingesetzt werden können. Dieser Ansatz spiegelt Palan eng wider

In meiner Firma, Jotform, haben wir tief in die Welt der KI-betriebenen Chatbots eingetaucht und eine Vielzahl von überraschenden Möglichkeiten aufgedeckt, wie sie unsere Interaktion mit Kunden verbessern können. Während wir ursprünglich dachten, ihr Hauptziel wäre es, Custome zu bewältigen

Sie zeichnen im Wesentlichen Parallelen zwischen der aktuellen technologischen Landschaft und früheren Innovationswellen, die uns das Internet, Big Data, Cloud Computing und andere Fortschritte gebracht haben. Es ist wichtig zu beachten

Verständnis der transformativen Kraft von Agenten -Aithe -Zahlen sprechen Bände: Grand View -Forschung sagt voraus, dass der globale AI -Agentenmarkt bis 2030 von 5 Milliarden US -Dollar in 2024 auf 50 Milliarden US -Dollar steigen wird, was eine jährliche Wachstumsrate von 46% entspricht. Noch signifikanter

Was die Akquisition hervorhebt, war nicht nur die finanzielle Zahl, sondern die unkonventionelle Reise, die das Unternehmen unternahm. Base44 verfolgte niemals Risikokapital oder haftete an der traditionellen Silicon Valley -Formel. Stattdessen zeigte es diesen Witz

Die kostenlose Nutzungsgrenze von CHATGPT-4 wird eher auf der Anzahl der Token als auf der Anzahl der Nachrichtenzeilen berechnet. 1) Neue Benutzer genießen normalerweise eine kostenlose Quote von 5 USD oder gleichwertigem RMB, das für GPT-3,5- oder GPT-4-Modelle verwendet werden kann. 2) Die freie Quote kann je nach Modell- und Inhaltslänge in Tausende in Zehntausende von Token umgewandelt werden. 3) API -Aufrufe werden pro tausend Token berechnet, z. B. die Eingabe von 0,03 USD/1KTOKEN und die Ausgabe von 0,06 USD/1KTOKENs; 4) Die Webseite hat nur begrenzte Zugriffsrechte für einige Benutzer, und die Häufigkeit der Nutzung und gleichzeitige Anfragen können begrenzt sein. 5) Melden Sie sich auf der offiziellen OpenAI -Website an und geben Sie die "Abrechnungsseite" ein, um den Ausgleich, den Nutzungsstatus und die Gültigkeitsdauer anzuzeigen. 6) Es wird empfohlen, eine Budget -Erinnerung festzulegen oder schließen
