PHP 正则表达式：如何提取 HTML 中的所有文本内容-tutorial php-php.cn

PHP 正则表达式：如何提取 HTML 中的所有文本内容

WBOY

Lepaskan： 2023-06-22 22:18:01

asal

2242 人浏览过

在 Web 开发中，经常需要从 HTML 中提取出其中的文本内容。这个时候，我们可以使用 PHP 的正则表达式来实现这个功能。正则表达式是一种用于匹配字符串的语言，可以用来解析 HTML 标记、过滤文本、验证表单等等。

下面我们将介绍如何使用 PHP 正则表达式来提取 HTML 中的所有文本内容。

获取 HTML 文件内容

首先，我们需要使用 PHP 的文件读取函数 file_get_contents() 读取 HTML 文件的内容。例如，我们有一个名为 example.html 的 HTML 文件，可以用以下代码读取：

$html = file_get_contents("example.html");

Salin selepas log masuk

编写正则表达式

接着，我们需要编写正则表达式，来匹配 HTML 中的文本内容。在 HTML 中，文本内容位于标记之间，我们可以通过匹配标记的方式来提取其中的文本内容。

以下是一个简单的正则表达式示例，可以匹配所有的 HTML 标记：

$pattern = '/<[^>]*>/';

Salin selepas log masuk

这个正则表达式的含义是：匹配以 < 开头、以 > 结尾的字符序列，中间不包含任何 > 字符。

我们可以使用 preg_replace() 函数将所有的 HTML 标记替换成空字符串，从而提取出 HTML 中的文本内容：

$text = preg_replace($pattern, '', $html);

Salin selepas log masuk

过滤特殊字符

在提取出 HTML 中的文本内容后，我们还需要过滤掉其中的一些特殊字符，例如换行符、制表符等等。这个时候，我们可以使用 PHP 的 strip_tags() 函数去掉 HTML 中所有的标记，并使用 trim() 函数去掉字符串两端的空白字符。

$text = strip_tags($text);
$text = trim($text);

Salin selepas log masuk

最后，我们就可以得到 HTML 中的所有文本内容了。

完整代码如下：

$html = file_get_contents("example.html");
$pattern = '/<[^>]*>/';
$text = preg_replace($pattern, '', $html);
$text = strip_tags($text);
$text = trim($text);
echo $text;

Salin selepas log masuk

总结

使用 PHP 正则表达式来提取 HTML 中的文本内容是一种常见的操作。通过上述步骤的介绍，我们可以很容易地实现这个功能。但是需要注意的是，正则表达式只是一种基础的匹配工具，对于复杂的 HTML 片段，可能需要更为复杂的匹配方式来实现提取文本内容的功能。

以上是PHP 正则表达式：如何提取 HTML 中的所有文本内容的详细内容。更多信息请关注PHP中文网其他相关文章！

Php8, saya datang juga

Ketahui reka letak tapak web dalam masa 30 minit

Tutorial Video Permulaan Shangguan Oracle kepada Mahir

Baris pertama kod UNI-APP anda

Berkibar dari awal ke pelancaran apl

Tutorial Video Linux Baharu Brother Lian

Tutorial Video AXURE 9 (Sesuai untuk UI Reka Bentuk Produk Interaktif Pengurus Produk)

Tutorial Video PS Kemahiran Asas Sifar

Tutorial video UI 16 hari untuk anda bermula

Tutorial Video Teknik PS dan Teknik Menghiris

Tutorial Video Pembinaan Persekitaran Awan Alibaba dan Pelancaran Projek

Gambaran Keseluruhan Rangkaian Komputer - Pengetahuan Asas yang Perlu Dikuasai Pengaturcara

Tutorial Penting untuk Pengaturcara - Penjelasan Protokol HTTP

Tutorial Video Websocket

PHP 正则表达式：如何提取 HTML 中的所有文本内容