Python - 文字列内のすべての中国語文字を正規化する方法-PHP中国語ネットワークQ&A

記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

Python - 文字列内のすべての中国語文字を正規化する方法

欧阳克 2017-06-22 11:51:45

0

2

1000

リーリー

文字列は上記の通り、型は'str'、漢字は規則性で取得する必要があります。以前 [u4e00-u9fa5] を使用したときは、依然として英語の記号と数字のリストが表示されました。正しい姿勢を教えてください。また、どこで間違えたのか教えてください...

リーリー

これは私が書いたものです...しかし、返された結果には漢字は含まれておらず、漢字以外の他の文字が含まれています。

欧阳克

温故而知新，可以为师矣。博客：www.ouyangke.com

全員に返信 (2)

習慣沉默

習慣沉默2017-06-22 11:53:45 2棟

ここでは、一致する必要があるテキストがsであると仮定します:

リーリー

ここでのdecode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外，需要注意compile()中ur修饰符，uは Unicode 修飾子です。

追記：私はこの記事にインスピレーションを受けました。

アップデート

下の階で言われたことを読みました。確かに、Python 3 では出力は Unicode ハッシュです。以下はここからの抜粋です。

Unicode文字列
Python2 では、通常の文字列は 8 ビット ASCII コードとして保存されますが、Unicode 文字列は 16 ビット Unicode 文字列として保存され、より多くの文字セットを表現できます。使用される構文は、文字列の前に u を付けます。
Python3 では、すべての文字列は Unicode 文字列です。

いいねを押す+0

返信を追加

女神的闺蜜爱上我

女神的闺蜜爱上我2017-06-22 11:53:45 1棟

Python2、uxxxx是unicode字符，匹配后得到的是字节文字列を使用しています。出力されるのは各バイト値です。

Pythonに変更すると3、この問題は解消されます

いいねを押す+0

返信を追加

人気のトピック

詳細>

人気の記事

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！