mysql로 가져오는 일부 지저분한 데이터에 대해 데이터 정리를 수행하고 있습니다.
데이터에는 "u00e9" 등과 같이 실제로 문자열에 포함된 "의사" 유니코드 문자가 포함되어 있습니다.
그래서 필드는..."Jalostotitlu00e1n"이 될 수 있습니다. 그 어색한 'u00e1n'을 떼어내고 해당 utf 문자로 바꿔야 합니다
부분 문자열과 CHR을 사용하여 mysql에서 이 작업을 수행할 수 있지만 PHP를 통해 데이터를 전처리하므로 거기서도 수행할 수 있습니다.
저는 이미 utf 데이터를 사용하도록 mysql과 php를 구성하는 방법을 알고 있습니다. 실제로 문제는 내가 가져온 소스 데이터에 있습니다.
감사합니다
/* utf8 html을 ansi로 변환하는 php 함수 */
으아악방법이 있습니다. 다 넣어
uXXXX
替换为其 HTML 表示形式,并执行html_entity_decode()
그건
echo html_entity_decode("Jalostotitlán");
일 수 있습니다.u1234
形式的每个 UTF 字符都可以在 HTML 中打印为ሴ
. 그러나 UTF 시퀀스의 시작을 식별하는 다른 문자가 없으면 많은 오탐이 발생할 수 있으므로 교체를 수행하는 것은 매우 어렵습니다. 간단한 정규식은preg_replace('/u([da-fA-F]{4})/', '', $str)