> Java > 정규식을 사용하여 유사한 텍스트 찾기

정규식을 사용하여 유사한 텍스트 찾기

王林
풀어 주다: 2024-02-14 19:03:08
앞으로
843명이 탐색했습니다.

php 편집기 Yuzi 정규식은 유사한 텍스트를 빠르게 찾는 데 도움이 되는 강력한 텍스트 일치 도구입니다. 문자열 처리, 데이터 추출 또는 입력 유효성 검사에서 정규식은 중요한 역할을 합니다. 유연성과 효율성 덕분에 복잡한 텍스트 작업을 보다 편리하게 처리할 수 있어 개발 효율성이 크게 향상됩니다. 초보자든 숙련된 개발자든 정규식을 익히는 것은 필수 기술입니다. 그 매력을 함께 알아보세요!

질문 내용

다른 PDF 문서에서 텍스트 목록을 식별했습니다. 이제 정규식을 사용하여 각 텍스트에서 일부 값을 추출해야 합니다. 내 패턴 중 일부는 다음과 같습니다.

으아아아

그런데 문제는 인식 후 일부 글자가 틀릴 수도 있다는 것입니다("0" 代替 "o""i" 代替 "l" 등). 그래서 내 패턴이 일치하지 않습니다.

jaro-winkler 또는 levenshtein 유사성과 같은 정규식을 사용하여 s0me 文本 my_value、一些其他文本 等文本中提取 my_value부터 시작하고 싶습니다.

이게 정말 멋져 보인다는 걸 알아요. 하지만 어쩌면 이 문제에 대한 해결책이 있을 수도 있습니다.

BTW Java를 사용하고 있지만 다른 언어의 솔루션도 허용됩니다

해결 방법

Python에서 regex 모듈을 사용하면 퍼지 매칭을 사용할 수 있습니다. 다음 정규식은 구문당 최대 2개의 오류를 허용합니다. 더 복잡한 오류 테스트(삽입, 대체 및 삭제)를 사용할 수 있습니다. 자세한 내용은 링크된 문서를 참조하세요.

으아아아

출력:

으르레어리

정규 표현 패턴 (?i)(somes*w*s*texts*)([^,]+)은 "일부 텍스트"와 유사한 구문 뒤에 쉼표 앞의 문자가 오는 것을 캡처하는 데 사용됩니다

위 내용은 정규식을 사용하여 유사한 텍스트 찾기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:stackoverflow.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿