> Java > java지도 시간 > Java에서 유니코드 기호와 악센트 문자를 영어 알파벳으로 변환하는 방법은 무엇입니까?

Java에서 유니코드 기호와 악센트 문자를 영어 알파벳으로 변환하는 방법은 무엇입니까?

DDD
풀어 주다: 2024-11-11 16:02:02
원래의
303명이 탐색했습니다.

How to Convert Unicode Symbols and Accent Letters to the English Alphabet in Java?

Java에서 기호 및 악센트 문자를 영어 알파벳으로 변환

문제 설명

유니코드 광범위한 문자 레퍼토리를 포함하며 그 중 다수는 영어 알파벳의 문자와 유사합니다. 문제는 이러한 모든 유사한 문자를 영어 문자로 변환하는 것입니다. 예를 들면 다음과 같습니다.

  • ҥ는 H로 변환
  • Ѷ는 V로 변환
  • ş는 Y로 변환
  • Ϭ은 O로 변환

A/a와 같은 문자의 유니코드 버전은 분류가 더 어렵습니다.

Java 솔루션

이 변환 문제를 해결하기 위해 다음을 활용할 수 있습니다. Java에서의 접근 방식:

  • Normalizer 클래스를 사용하여 문자열을 NFD(Normalization Form D)로 정규화합니다. 이렇게 하면 악센트 부호가 있는 문자가 기본 문자로 확장되고 발음 구별 부호가 결합됩니다.
  • 다음 코드를 사용하여 정규 표현식을 활용하여 결합 발음 부호를 식별하고 제거합니다.
import java.text.Normalizer;
import java.util.regex.Pattern;

public String deAccent(String str) {
    String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); 
    Pattern pattern = Pattern.compile("\p{InCombiningDiacriticalMarks}+");
    return pattern.matcher(nfdNormalizedString).replaceAll("");
}
로그인 후 복사

이 코드는 먼저 NFD를 사용하여 문자열을 검색한 다음 정규 표현식을 사용하여 발음 구별 부호를 제거함으로써 악센트 기호가 제거되고 문자가 해당하는 영어 알파벳으로 변환됩니다.

위 내용은 Java에서 유니코드 기호와 악센트 문자를 영어 알파벳으로 변환하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿