Erhalten von String-Ähnlichkeitsmetriken in Python
Die Bestimmung der Ähnlichkeit zwischen Strings ist eine entscheidende Aufgabe in verschiedenen Anwendungen zur Verarbeitung natürlicher Sprache. Python bietet robuste Bibliotheken, die bei diesem Unterfangen helfen.
Ansatz:
Um die Ähnlichkeitsmetrik zwischen zwei Strings zu berechnen, stellt das difflib-Modul die bereit SequenceMatcher-Klasse. Diese Klasse bewertet die Ähnlichkeit zwischen zwei Sequenzen (in diesem Fall Zeichenfolgen) mithilfe verschiedener Algorithmen, einschließlich des LCS-Algorithmus (Longest Common Subsequence).
Implementierung:
from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio()
Die Funktion similar akzeptiert zwei Zeichenfolgen, a und b und gibt einen Dezimalwert zurück, der die Ähnlichkeit zwischen ihnen darstellt und von 0 (keine Ähnlichkeit) bis 1 (vollkommene Ähnlichkeit) reicht.
Verwendung:
print(similar("Apple", "Appel")) # Expected output: 0.8 (high similarity) print(similar("Apple", "Mango")) # Expected output: 0.0 (low similarity)
In diesem Beispiel ist die Ähnlichkeit zwischen „Apple“ und „Appel“ hoch, was auf eine hohe Ähnlichkeitswahrscheinlichkeit hinweist, während die Ähnlichkeit zwischen „Apple“ und „Mango“ ist gering, was auf eine geringe Ähnlichkeitswahrscheinlichkeit hinweist.
Das obige ist der detaillierte Inhalt vonWie kann Pythons „difflib' die String-Ähnlichkeit effizient berechnen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!