문자열은 위와 같고, 타입은 'str' 이며, 한자는 규칙적으로 얻어야 합니다. 이전에 [u4e00-u9fa5]를 사용했을 때에도 여전히 영어로 된 기호와 숫자 목록이 표시되었습니다. 올바른 자세를 가르쳐 주세요. 그리고 어디서 실수했는지 알려주세요...
제가 쓴 글인데...반환된 결과에는 한자가 없고 한자를 제외한 다른 문자가 나옵니다.
温故而知新,可以为师矣。 博客:www.ouyangke.com
여기서 일치해야 하는 텍스트는 s:
s
여기 decode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外,需要注意compile()中ur修饰符,u는 유니코드 수정자입니다.
decode('utf8')
x66x77x88
compile()
ur
u
PS: 저는 이 기사에서 영감을 받았습니다.
아래층에서 말한 내용을 읽었습니다. Python 3에서는 출력이 유니코드 해시라는 것이 사실입니다. 여기에서 발췌했습니다.
유니코드 문자열 Python2에서는 일반 문자열이 8비트 ASCII 코드로 저장되는 반면, 유니코드 문자열은 16비트 유니코드 문자열로 저장되므로 더 많은 문자 집합을 나타낼 수 있습니다. 사용되는 구문은 문자열 앞에 u를 붙이는 것입니다. Python3에서는 모든 문자열이 유니코드 문자열입니다.
python2, uxxxx是unicode字符,匹配后得到的是字节String을 사용하고 있으며, 출력되는 것은 각 바이트 값입니다.
uxxxx
字节
파이썬으로 바꾸면3 이 문제가 사라집니다
3
여기서 일치해야 하는 텍스트는
이라고 가정합니다. 으아악s
:여기
decode('utf8')
是怕s的值为类似x66x77x88
这样的Unicode散列。另外,需要注意compile()
中ur
修饰符,u
는 유니코드 수정자입니다.PS: 저는 이 기사에서 영감을 받았습니다.
업데이트
아래층에서 말한 내용을 읽었습니다. Python 3에서는 출력이 유니코드 해시라는 것이 사실입니다. 여기에서 발췌했습니다.
python2,
uxxxx
是unicode字符,匹配后得到的是字节
String을 사용하고 있으며, 출력되는 것은 각 바이트 값입니다.파이썬으로 바꾸면
3
이 문제가 사라집니다