PHP 正規表現の練習: 非 ASCII 文字のマッチング-PHPチュートリアル-php.cn

インターネットのグローバル化に伴い、多言語文字の処理を行う Web サイトがますます増えています。 PHP では、正規表現を使用してこれらの文字を照合して処理することがますます重要になってきています。この記事では、PHP 正規表現を使用して非 ASCII 文字を照合および処理する方法に焦点を当てます。

ASCII 文字とは何ですか?

まず、ASCII 文字とは何かを理解しましょう。 ASCII 文字セットは、各文字を一意の数値にマップする 7 ビットの文字エンコードスキームであり、コンピュータシステムで頻繁に使用されます。 ASCII 文字セットには、文字、数字、句読点、特殊制御文字を含む文字値は 128 個しかありません。 ASCII 文字セットは、英語のテキストのエンコードと処理によく使用されます。

しかし、インターネットの発達とさまざまな言語の使用の増加により、英語だけが唯一の言語ではなくなりました。現在、多くの Web サイトでは、中国語、日本語、ロシア語などの非 ASCII 文字を含むテキストコンテンツを処理する必要があります。したがって、非 ASCII 文字を処理する必要性がますます一般的になっています。

非 ASCII 文字を照合するにはどうすればよいですか?

次に、PHP 正規表現を使用して非 ASCII 文字と一致する方法を紹介します。

正規表現では、x 構文を使用して 16 進文字と一致させることができます。たとえば、中国語の文字「you」を照合するには、次の正規表現を使用できます。

/x{4F60}/u

ログイン後にコピー

この正規表現は /u モードを使用します。これは、文字の照合に Unicode 文字エンコーディングが使用されることを意味します。これにより、一致する文字が正しいことが保証されます。

x 構文に加えて、p 構文を使用して Unicode 文字属性と一致させることもできます。たとえば、すべての中国語の文字と一致させるには、次の正規表現を使用できます。

/[p{Han}]+/u

ログイン後にコピー

この正規表現では、すべての中国語の文字を表す Unicode 文字属性 p{Han} を使用します。 1 つ以上の漢字と一致することを意味します。

Unicode 文字エンコーディングを使用して非 ASCII 文字を処理すると、パフォーマンスに一定の影響を与える可能性があることに注意してください。したがって、実際のアプリケーションでは、大量の非 ASCII 文字を処理するための正規表現の使用は最小限に抑える必要があります。

PHP で正規表現を使用して非 ASCII 文字を処理するにはどうすればよいですか?

PHP で正規表現を使用して非 ASCII 文字を処理するには、次の問題に注意する必要があります。

/u モードを使用して文字を照合し、必ずUnicode 文字エンコーディング。
正規表現エンジンに正しい文字エンコーディング (UTF-8 エンコーディングなど) を設定します。
処理効率を向上させるために、正規表現で非 ASCII 文字を大量に使用することは避けてください。

次は、正規表現を使用して中国語の文字と一致する例です:

// 设置字符编码为UTF-8 header("Content-type:text/html;charset=utf-8"); // 要匹配的字符串 $str = "你好，世界！"; // 使用正则表达式匹配中文字符 $pattern = '/[x{4e00}-x{9fa5}]+/u'; preg_match_all($pattern, $str, $matches); // 输出匹配结果 print_r($matches[0]);

ログイン後にコピー

出力結果:

Array ( [0] => 你好 [1] => 世界 )

ログイン後にコピー

上記の例では、[x{4e00 はused }-x{9fa5}] 範囲はすべての中国語の文字と一致し、$matches 配列には一致した結果が格納されます。

結論

正規表現を使用して非 ASCII 文字を処理することは、非常に実践的なスキルです。多言語 Web サイトを扱う場合、PHP 正規表現を使用すると、中国語、日本語、韓国語、その他の言語の文字を簡単に照合して処理できます。同時に、正規表現のパフォーマンスの問題にも注意を払い、多数の非 ASCII 文字を処理するための正規表現の使用を減らす必要があります。

以上がPHP 正規表現の練習: 非 ASCII 文字のマッチングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。