Heim >Backend-Entwicklung >PHP-Problem >Problem mit der regulären PHP-Übereinstimmung durch verstümmeltes Chinesisch
Die Lösung für den regulären PHP-Abgleich mit verstümmelten chinesischen Zeichen: Öffnen Sie zuerst die PHP-Codedatei und fügen Sie dann den UTF8-Modifikator zur Codedatei hinzu ',$a);".
Empfohlen: „PHP-Video-Tutorial“
Spezifisches Problem:
Die Verwendung regulärer Ausdrücke zum Abgleichen chinesischer Zeichen in PHP-Strings führt zu verstümmelten Zeichen
<?php echo '<h2>正则表达式匹配中文</h2><br>'; $a = '天地不仁,以万物为刍狗'; $b = preg_replace('/万/','萬',$a); echo $b; echo '<h2>加上方括号后替换结果出现乱码</h2><br>'; $c = '天地不仁,以万物为刍狗'; $d = preg_replace('/[万]/','萬',$a); echo $d; ?>
Die Ergebnisse des oben genannten Programms kann sein gefunden unter http://nyaii.com/s/test.php gesehen. Aus irgendeinem Grund erscheinen verstümmelte Zeichen, nachdem den entsprechenden chinesischen Zeichen eckige Klammern hinzugefügt wurden. In der gleichen Situation funktioniert alles einwandfrei, wenn es in Javascript ausgeführt wird.
'天地不仁'.replace(/[天]/,'') //outputs "地不仁"
Lösung:
UTF8-Modifikator hinzufügen
$d = preg_replace('/[万]/u','萬',$a);
Weitere Modifikatoren finden Sie unter
http://php.net/manual/en/reference.pcre.pattern.modifiers. php
The Es folgt der ergänzende Inhalt zur Frage im Themenkommentar
Was den Grund betrifft, warum Sie den u-Modifikator innerhalb von [] hinzufügen müssen? Streng genommen sollten Sie den u-Modifikator besser in beiden Situationen hinzufügen
Aber warum [ ] verursacht verstümmelte Zeichen? Dies muss auf der Byte-Ebene und nicht auf der Zeichenebene erklärt werden.
Zunächst wissen wir, dass PHP-Strings nicht in Unicode gespeichert sind, und dann schauen wir uns diesen Code an
<?php $a = "万"; echo strlen($a); //3 for ($i = 0; $i < strlen($a); $i++) { echo dechex(ord($a[$i])) . ' '; //e4 b8 87 }
Wir können die utf8-Hexadezimalkodierung des Wortes „zehntausend“ erhalten, die e4b887 ist
Also wenn utf8 ist nicht aktiviert. Bei Verwendung als Modifikator behandelt die Engine für reguläre Ausdrücke „zehntausend“ nicht als unabhängiges Zeichen, sondern als drei Byte fortlaufender Daten.
Das Folgende ist die Schlussfolgerung:
Wenn es kein passendes [] gibt, wird nach drei aufeinanderfolgenden Zeichen mit einem hexadezimalen Codierungswert von e4 b8 87 gesucht. Mit anderen Worten, Ihr Muster ist tatsächlich xe4xb8x87, aber wenn dieser Typ Wenn in Ihrer Zeichenfolge eine Anzahl fortlaufender Zeichen vorkommt, kann nur das Wort „zehntausend“ damit übereinstimmen, sodass nach dem Ersetzen keine verstümmelten Zeichen entstehen. Wenn Ihre Zeichenfolge jedoch möglicherweise auch 4-Byte-UTF8-codierte Zeichen wie Emoji enthält, kann dies zu Problemen führen Stellen Sie fest, dass es tatsächlich mit einem dieser drei Zeichen übereinstimmt, sodass es sich derzeit auf andere chinesische Zeichen außer Zehntausend auswirkt
Wenn Sie den UTF8-Modifikator hinzufügen Danach wird „Wan“ vom regulären Ausdruck als unabhängiges Zeichen behandelt , sodass dieses Problem nicht mehr auftritt
Da es sich bei Javascript um native Unicode-Zeichenkodierung handelt, wird jedes Zeichen als ein Zeichen behandelt und nicht in Byte-Daten aufgeteilt, sodass dieses Problem nicht auftritt
Das obige ist der detaillierte Inhalt vonProblem mit der regulären PHP-Übereinstimmung durch verstümmeltes Chinesisch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!