PHP의 문자열, 인코딩 및 UTF-8 코드에 대한 자세한 설명

黄舟
풀어 주다: 2023-03-06 11:58:01
원래의
2560명이 탐색했습니다.

최근 코딩에 관한 글을 많이 읽어서 "PHP, 문자열, 인코딩, UTF-8" 관련 지식을 이야기하기 위해 블로그 글을 두 개로 나누었습니다. 이번 블로그 글은 크게 네 부분으로 나누어 전반부입니다. 즉, " "문자열의 정의 및 사용", "문자열 변환", "PHP 문자열의 특성", "멀티바이트 문자열"입니다. 전반부는 상대적으로 기본적이며 다음 기사 "PHP 및 UTF-8의 모범 사례"에서 더 많은 정보를 얻을 수 있습니다.

문자열의 정의와 사용

문자열은 PHP에서 네 가지 방법으로 설정할 수 있습니다:

작은따옴표 문자열

작은 따옴표로 묶인 문자열은 Python의 원시 문자열과 유사합니다. 즉, 작은 따옴표로 묶인 문자열에는 변수 구문 분석 기능과 특수 문자 이스케이프 기능이 없습니다. 예를 들어, $str='hellonworld', n에는 개행 기능이 없습니다.

큰따옴표 문자열

큰따옴표로 묶인 문자열에는 작은따옴표로 묶인 문자열에 없는 변수 구문 분석 기능과 특수 문자 이스케이프 기능이 있습니다.

개인적으로 저는 16진수와 8진수 문자열의 특수 이스케이프에 관심이 많습니다. 특수 추가:

\[0-7]{1,3} #八进制表达方式
\x[0-9A-Fa-f]{1,2} #十六进制表达方式
로그인 후 복사

여기문서

이 표현식은 Python의 긴 문자열과 유사하며 여러 줄을 포함하는 문자열을 정의할 수 있습니다. 문법적 정의가 매우 엄격하므로 사용 시 주의가 필요합니다.

아아아아

나우독

Nowdoc은 작은따옴표로 묶인 문자열과 유사하며 변수를 구문 분석하지 않습니다. 특수 문자를 이스케이프하지 않고 큰 텍스트 섹션을 정의하는 데 더 적합합니다.

변수분석

PHP 문자열의 가장 강력한 부분은 변수 구문 분석으로, 런타임 시 컨텍스트에 따라 변수를 구문 분석할 수 있으며(이것은 해석된 언어임) 많은 놀라운 용도를 만들어낼 수 있습니다.

단순 변수 구문 분석은 문자열에 "변수", "배열" 및 "객체 속성"이 포함될 수 있음을 의미합니다. 복잡한 구문 규칙은 {} 기호를 사용하여 작동(식 형성)하는 것입니다.

예시를 통해 변수 파싱의 위력을 살펴보겠습니다

$str=<<<EOD
hello\n
world
EOD;
로그인 후 복사

문자열 변환

PHP 언어가 Python보다 단순한 또 다른 이유는 암시적 유형 변환으로, 이는 많은 작업을 단순화하며 여기서는 문자열 변환을 통해 설명합니다.

문자열형 강제

class beers {
    const softdrink = &#39;softdrink&#39;;
    public static $ale = &#39;ale&#39;;
    public $data = array(1,3,"k"=>4);
}

$softdrink = "softdrink";
$ale = "ale";
$arr = array("arr1","arr2","arr3"=>"arr4","arr4"=>array(1,2));
$arr4 = "arr4";
$obj = new beers;
echo "line1:{$arr[1]}\n";
echo "line2:{$arr[&#39;arr4&#39;][0]}\n"; 
echo "line3:{$obj->data[1]}\n";
echo "line4:{${$arr[&#39;arr3&#39;]}}\n";
echo "line5:{${$arr[&#39;arr3&#39;]}[1]}\n";
echo "line6:{${beers::softdrink}}\n";
echo "line7:{${beers::$ale}}\n";
로그인 후 복사

strval() 함수는 변수의 문자열 값을 가져오는 것입니다:

$var = 10 ;
$dvar = (string)$var ;
echo $dvar . "_" . gettype($dvar);
로그인 후 복사

settype() 함수는 변수의 유형을 설정합니다:

$var = 10.2 ;
$dvar = strval($var) ;
echo gettype($var) . "_" . $dvar . "_" . gettype($dvar);
로그인 후 복사

강제 유형 변환 과정에서 다른 유형의 값을 문자열로 변환할 때 특정 규칙을 따릅니다. 예를 들어 TRUE의 부울 값은 "1"의 문자열로 변환됩니다. 관련 규칙을 이해하는 것이 가장 좋습니다.

자동 유형 변환

위의 두 가지 변환은 표시 변환이며, 더 주의해야 할 것은 자동 유형 변환입니다. 문자열이 필요한 표현식에서는 자동으로 유형으로 변환됩니다.

$str = "10hello";
settype($str, "integer");
echo $str ;
로그인 후 복사

PHP 문자열의 본질

PHP 문서의 설명 인용:

PHP의 문자열은 바이트 배열과 버퍼 길이를 지정하는 정수로 구현됩니다. 바이트를 문자로 변환하는 방법에 대한 정보는 없으며 결정하는 것은 프로그래머의 몫입니다. 문자열의 어느 위치에나 나타날 수 있는 값이 0인 바이트를 포함하여 문자열이 구성되는 값에는 제한이 없습니다.

PHP는 문자열 인코딩을 지정하지 않습니다. 문자열 인코딩 방법은 프로그래머에 따라 다릅니다. 문자열은 PHP 파일의 인코딩에 따라 인코딩됩니다. 예를 들어 파일 인코딩이 GBK인 경우 코드 콘텐츠는 GBK가 됩니다.

바이너리 안전 개념을 보완하기 위해 0(NULL) 값을 가진 바이트는 문자열의 어느 위치에나 있을 수 있으며, PHP의 비바이너리 함수 중 일부는 맨 아래에 C 함수라고 불리며 NULL 뒤의 문자를 무시합니다. .

PHP의 파일 인코딩이 ASCII와 호환되는 한 문자열 작업은 잘 처리될 수 있습니다. 그러나 문자열 작업은 본질적으로 여전히 기본이므로(파일 인코딩이 무엇이든) 사용할 때 주의가 필요합니다.

  • 일부 함수는 문자열이 단일 바이트로 인코딩된다고 가정하지만 바이트를 특정 문자로 해석할 필요는 없습니다. 예를 들어, sbustr() 함수입니다.

  • 많은 함수는 인코딩 매개변수를 명시적으로 전달해야 합니다. 그렇지 않으면 htmlentities() 함수와 같은 PHP.INI 파일에서 기본값을 가져옵니다.

  • 로컬 영역과 관련된 일부 기능도 있으며 이러한 기능은 단일 바이트에서만 작동할 수 있습니다.

일반적인 상황에서는 PHP가 내부적으로 유니코드 문자를 지원하지 않지만, 대부분의 경우 문제가 없습니다.

  • UTF-8로 인코딩되지 않은 문자열을 변환하는 방법

  • UTF-8로 인코딩된 웹 페이지이지만 사용자가 양식을 제출할 때 GBK 인코딩(메타 태그를 준수하지 않음)을 사용할 수 있습니다.

  • strlen("China")을 사용하여 UTF-8로 인코딩된 PHP 파일은 실제 문자 수(2) 대신 6을 반환합니다.

​그렇다면 이 문제를 어떻게 해결해야 할까요? PHP는 mbstring 확장을 제공합니다!

멀티바이트 문자열

mbstring 확장은 기본적으로 활성화되어 있지 않습니다. 설치 시 --enable-mbstring이 필요합니다.

먼저 PHP.INI의 mbstring 지시문 구성을 살펴보겠습니다. 점차적으로 이해하는 데 오랜 시간이 걸렸습니다.

  • mbstring.언어 매개변수는 UTF-8

  • 으로 이해됩니다. mbstring.internal_encoding 이 인코딩은 PHP 파일 인코딩과 아무 관련이 없습니다. 단지 대부분의 mbstring 함수에서 처리할 문자열의 인코딩을 명시적으로 지정하지 않으면 이 매개변수의 값이 지정됩니다. 이 매개변수의 값은 PHP의 상위 버전에서 대신 default_charset 매개변수를 사용했습니다.

  • mbstring.http_input 이 매개변수는 HTTP 입력에 대한 기본 인코딩을 지정합니다(GET 매개변수 제외). 일반적으로 HTML 페이지의 인코딩과 일치하며 이 매개변수의 값은 default_charset 매개변수로 대체됩니다.

  • mbstring.http_output 이 매개변수는 나를 오해하게 했습니다. HTTP 출력이 무엇입니까? PHP 출력은 단순한 페이지가 아닙니까? 어떻게 그런 개념이 있을 수 있습니까?

  • mbstring.encoding_translation, 이 매개변수에 집중해 보겠습니다. 이 매개변수는 기본적으로 꺼져 있습니다. 켜져 있으면 PHP는 자동으로 POST 변수의 인코딩과 업로드된 파일 이름을 mbstring.internal_encoding에 지정된 값으로 변환합니다. , 테스트하지 않았습니다. 중국어 이름의 파일을 업로드할 수 있습니다. 이를 닫고 프로그래머가 관련 문제를 처리하도록 하는 것이 좋습니다.

나중에 mbstring으로 확장된 일부 기능을 살펴보겠습니다.

  • mb_http_input(): HTTP 입력 문자 인코딩을 감지하고 파일 업로드의 파일 이름을 처리하는 데 필요한지 찾습니다.

  • mb_convert_encoding(): 일반적으로 사용되는 함수입니다. 세 번째 매개변수에 주의하세요.

  • mb_Detect_order(): 문자 인코딩 감지 순서를 설정/가져옵니다.

  • mb_list_encodings(): 시스템에서 지원하는 인코딩 목록을 반환합니다.

중요 사항: PHP 파일은 특정 인코딩을 지원해야 하며 ASCII와 호환되어야 합니다.

그러나 특히 문자열이 식별자 또는 리터럴 형식으로 나타나는 경우 BIG-5를 PHP 파일 인코딩으로 사용하지 마십시오. 실제 PHP 파일 인코딩이 BIG-5인 경우 입력 및 출력 콘텐츠를 UTF-8로 변환해 보십시오.

Zend 멀티바이트

마지막으로 Zend Multibyte의 개념에 대해 이야기하겠습니다. 우선 mbstring 확장과 혼동하지 마십시오. Zend 멀티바이트 모드는 기본적으로 꺼져 있으며 zend.multibyte 명령을 통해 켤 수 있습니다. 그런 다음 선언() 함수를 통해 PHP 파서의 인코딩을 지정합니다.

이 지시의 의미는 무엇입니까? 위에서 언급했듯이 PHP 파일의 인코딩은 ASCII와 호환되어야 하는데 BIG-5와 같이 호환되지 않는 ASCII 인코딩은 어떻게 해야 할까요? PHP 파서가 mbstring.script_encoding 인코딩을 읽고 이를 사용하면 이 명령을 통해 작동할 수 있습니다. PHP 파일을 구문 분석하기 위한 인코딩.

위 내용은 PHP의 문자열, 인코딩, UTF-8 코드에 대한 자세한 설명입니다. 더 많은 관련 내용은 PHP 중국어 홈페이지(m.sbmmt.com)를 참고해주세요!


관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿