웹 개발에서 HTML은 필수 요소입니다. 하지만 HTML 태그 없이 HTML에서 일반 텍스트를 추출해야 하는 경우도 있습니다. 이때 정규식은 매우 편리한 도구이다.
PHP에서는 preg_replace() 함수를 사용하여 HTML 태그를 제거할 수 있습니다. 이 함수의 사용법은 다음과 같습니다.
preg_replace($pattern, $replacement, $subject);
여기서 $pattern은 정규식 패턴, $replacement는 대체 문자열, $subject는 처리할 문자열입니다. 아래에서 설명하는 것처럼 $pattern과 $replacement는 모두 배열이 될 수 있습니다.
다음으로 HTML 태그를 제거하기 위한 몇 가지 일반적인 정규 표현식에 대해 논의하겠습니다.
$pattern = '/<[^>]*>/'; $replacement = ''; $text = preg_replace($pattern, $replacement, $html);
이 정규식에서 <는 왼쪽 꺾쇠괄호를 의미하고, 1은 오른쪽 꺾쇠괄호를 제외한 모든 문자와 일치함을 의미하며, *는 0번 이상 일치함을 의미합니다. 따라서 이 표현식은 모든 HTML 태그와 일치하며 이를 null 문자로 바꿉니다.
$pattern = '/<script[^>]*>(.*?)</script>/is'; $replacement = ''; $text = preg_replace($pattern, $replacement, $html);
이 정규 표현식은