Maison > développement back-end > Tutoriel Python > Comment Apache Spark peut-il être utilisé pour une mise en correspondance efficace des chaînes et une vérification du texte extrait des images à l'aide de l'OCR ?

Comment Apache Spark peut-il être utilisé pour une mise en correspondance efficace des chaînes et une vérification du texte extrait des images à l'aide de l'OCR ?

Patricia Arquette
Libérer: 2024-10-29 05:25:31
original
302 Les gens l'ont consulté

 How can Apache Spark be used for efficient string matching and verification of text extracted from images using OCR?

Correspondance efficace des chaînes dans Apache Spark pour la vérification du texte extrait

Les outils de reconnaissance optique de caractères (OCR) introduisent souvent des erreurs lors de l'extraction de texte à partir d'images. Pour faire correspondre efficacement ces textes extraits à un ensemble de données de référence, un algorithme efficace dans Spark est requis.

Compte tenu des défis rencontrés lors de l'extraction OCR, tels que le remplacement de caractères, les omissions d'emoji et la suppression des espaces blancs, une approche globale est nécessaire. Compte tenu des atouts de Spark, une combinaison de transformateurs d'apprentissage automatique peut être exploitée pour obtenir une solution efficace.

Approche pipeline

Un pipeline peut être construit pour effectuer les étapes suivantes :

  • Tokenisation : à l'aide de RegexTokenizer, le texte saisi est divisé en jetons d'une longueur minimale, en tenant compte des remplacements de caractères comme "I" et "|".
  • N-Grams : NGram extrait des séquences de n-grammes de jetons pour capturer les omissions potentielles de symboles.
  • Vectorisation : Pour faciliter une mesure efficace de similarité, HashingTF ou CountVectorizer convertit n -grammes en vecteurs numériques.
  • Hachage sensible à la localité (LSH) : Pour approximer la similarité cosinusoïdale entre les vecteurs, MinHashLSH utilise le hachage sensible à la localité.

Exemple de mise en œuvre

<code class="scala">import org.apache.spark.ml.feature.{RegexTokenizer, NGram, HashingTF, MinHashLSH, MinHashLSHModel}

// Input text
val query = Seq("Hello there 7l | real|y like Spark!").toDF("text")

// Reference data
val db = Seq(
  "Hello there ?! I really like Spark ❤️!", 
  "Can anyone suggest an efficient algorithm"
).toDF("text")

// Create pipeline
val pipeline = new Pipeline().setStages(Array(
  new RegexTokenizer().setPattern("").setInputCol("text").setMinTokenLength(1).setOutputCol("tokens"),
  new NGram().setN(3).setInputCol("tokens").setOutputCol("ngrams"),
  new HashingTF().setInputCol("ngrams").setOutputCol("vectors"),
  new MinHashLSH().setInputCol("vectors").setOutputCol("lsh")
))

// Fit on reference data
val model = pipeline.fit(db)

// Transform both input text and reference data
val db_hashed = model.transform(db)
val query_hashed = model.transform(query)

// Approximate similarity join
model.stages.last.asInstanceOf[MinHashLSHModel]
  .approxSimilarityJoin(db_hashed, query_hashed, 0.75).show</code>
Copier après la connexion

Cette approche gère efficacement les défis de l'extraction de texte OCR et fournit un moyen efficace de faire correspondre les textes extraits avec un grand ensemble de données dans Spark.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal