Python에서 문자열 유사성 측정항목 얻기
문자열 간의 유사성을 확인하는 것은 다양한 자연어 처리 애플리케이션에서 중요한 작업입니다. Python은 이러한 노력을 지원하는 강력한 라이브러리를 제공합니다.
접근 방식:
두 문자열 간의 유사성 측정항목을 계산하기 위해 difflib 모듈은 다음을 제공합니다. SequenceMatcher 클래스. 이 클래스는 LCS(Longest Common Subsequence) 알고리즘을 포함하여 서로 다른 알고리즘을 사용하여 두 시퀀스(이 경우 문자열) 간의 유사성을 평가합니다.
구현:
from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio()
비슷한 함수는 두 개의 문자열을 허용합니다. a 및 b를 반환하며, 0(유사성 없음)부터 1(완벽한 유사성) 범위의 유사성을 나타내는 10진수 값을 반환합니다.
사용법:
print(similar("Apple", "Appel")) # Expected output: 0.8 (high similarity) print(similar("Apple", "Mango")) # Expected output: 0.0 (low similarity)
이 예에서 "Apple"과 "Apple" 사이의 유사성은 "Appel"은 높음으로 유사성 확률이 높음을 나타내고, "Apple"과 "Mango"는 유사성이 낮아 유사성 확률이 낮음을 나타냅니다.
위 내용은 Python의 `difflib`는 어떻게 문자열 유사성을 효율적으로 계산할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!