L'équipe Tencent OCR remporte quatre championnats dans la compétition ICDAR-IA-php.cn

L'équipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

PHPz

Libérer： 2023-10-20 18:45:04

avant

1164 Les gens l'ont consulté

Lors de l'ICDAR 2023, l'événement majeur dans le domaine de la reconnaissance de texte mondiale (OCR), l'équipe OCR de Tencent a remporté quatre championnats basés sur des algorithmes auto-développés. C'est la quatrième fois consécutive qu'elle participe à la conférence et obtient de bons résultats depuis 2017. 2019 et 2021. Au total, 18 championnats de certification officiels ont été remportés, démontrant le niveau de classe mondiale de la technologie OCR de Tencent.

La conférence ICDAR est une conférence académique faisant autorité reconnue dans le domaine de l'analyse et de la reconnaissance mondiales d'images de documents. Elle a lieu tous les deux ans. L'événement a attiré près de 8 000 équipes de plus de 100 pays. Le concours ICDAR est bien connu au pays et à l'étranger pour sa difficulté technique extrêmement élevée et son caractère pratique. Contrairement aux classements informels après la compétition, le concours officiel officiellement certifié par l'ICDAR utilise un nouvel ensemble de données, ainsi que les informations et informations des équipes participantes. Les résultats ne sont pas annoncés pendant le concours, bien que limitant le temps et le nombre de soumissions des résultats, ils sont très difficiles à « saisir à l'aveugle ».

Cette année, l'équipe Tencent OCR est composée conjointement du département Tencent Data Platform et du département WeChat Technology Architecture. Elle s'est concentrée sur la participation aux deux concours majeurs DSText (Dense Small Text Video Text Recognition) et SVRD (Structured Information Extraction), et a obtenu le championnat sur piste 4 A.

Piste DSText, Tencent a remporté les deux championnats

Le concours DSText (Dense Small Text Video Text Recognition) a mis en place deux tâches : le suivi du texte vidéo et la reconnaissance de bout en bout du texte vidéo. Parce que le texte est très dense et très petit, couplé aux interférences environnementales (bougé d'appareil photo, flou de mouvement, changements d'éclairage, etc.) et à la post-édition (découpe d'écran multi-objectifs, arrière-plan artificiel, changement d'interface de jeu, etc.), il est difficile à détecter et à suivre avec précision à partir d'images vidéo. La reconnaissance de texte nécessite une grande robustesse de l'algorithme et est extrêmement difficile. Quelques images vidéo du concours sont présentées ci-dessous :

Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Cadres schématiques du concours ICDAR-DSText

Dans les 2 tâches du concours DSText, l'équipe Tencent OCR a remporté le championnat avec une avance absolue.

Parmi eux, la tâche 1 vise à suivre tous les flux de texte dans la vidéo et à regrouper les images de détection appartenant à la même instance de texte entre les images vidéo. L'indicateur d'évaluation est MOTA en tête de 12,04 %.

Suivi de texte vidéo : certificat de championnat Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Dans la tâche 2, conçue pour évaluer les performances de bout en bout de la reconnaissance de texte vidéo, la tâche nécessite une détection de texte correcte sur chaque image, un suivi correct sur les images vidéo et un niveau de séquence Correct identification, l'indice d'évaluation est OCR-MOTA, Tencent a remporté le championnat avec

menant la deuxième place de 11,93%.

Reconnaissance de bout en bout du texte vidéo : certificat de championnat Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Piste SVRD, Tencent a remporté deux championnats avec un avantage absolu

La compétition SVRD (Structured Information Extraction) comprend deux pistes majeures, HUST-CELL et BAIDU-FEST 4 tâches : Extraction de relations entre entités de documents complexes (E2E Complex Entity Linking), extraction sémantique d'entités de documents complexes (E2E Complex Entity Labeling), extraction d'informations structurées sans tir (E2E Zero-shot Structured Text Extraction) et extraction d'informations structurées sur petits échantillons ( Extraction de texte structuré en quelques plans). En raison de la mise en page complexe et de la structure diversifiée des images de documents, de la collection irrégulière d'images de scènes naturelles, des arrière-plans complexes, de la casse, du pliage, de la déformation et d'autres problèmes, la compétition est assez difficile. Quelques photos de la compétition sont présentées ci-dessous :

Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Échantillon de compétition d'extraction d'informations structurées ICDAR-SVRD

Dans la compétition SVRD, l'équipe Tencent OCR a remporté un total de 2 championnats.

Parmi eux, la tâche 2 (E2E Complex Entity Labeling) vise à extraire des entités sémantiques sur des images de documents complexes, telles que des titres, des noms d'organisations, des dates, des montants, des numéros, des noms de produits, des noms de personnes, etc. Tencent a un grand avantage dans cette tâche a remporté le championnat

Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Étiquetage d'entités complexes E2E : certificat de championnat

Tâche 4 (Extraction de texte structuré en quelques plans E2E) La question du concours nécessite l'extraction d'images dans 10 scénarios différents dans le but de fournir un très petit quantité de données de formation. Pour les informations clés, telles que les cartes bancaires, les licences commerciales, les factures de taxi, les reçus d'achats, les factures de transport, les factures à montant fixe, les papiers, etc., Tencent a également remporté le championnat.

Léquipe Tencent OCR remporte quatre championnats dans la compétition ICDAR

Extraction de texte structuré en quelques plans E2E : certificat de champion

Selon les rapports, l'équipe Tencent OCR est une équipe professionnelle au sein de Tencent dédiée à la recherche et au développement de la technologie OCR. L'équipe a développé de manière indépendante une haute précision et une haute stabilité. La technologie unique de détection et de reconnaissance de texte prend en charge des centaines de scénarios commerciaux au sein de Tencent, tels que la publicité Tencent, WeChat, QQ, Tencent Cloud, Tencent Video et les produits de flux d'informations Tencent.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!