PHP正規表示式實戰：符合HTML表格數據-php教程-PHP中文網

HTML表格是網頁開發中常見的元素，利用PHP的正規表示式可以方便地擷取表格中的資料。本文將介紹PHP正規表示式在符合HTML表格資料方面的實際應用。

HTML表格基礎

HTML表格由行和列組成，其中最外層的標籤為

，每行使用標籤表示，每列則由

標籤表示，如下所示：

<table>
  <tr>
    <td>1</td>
    <td>2</td>
    <td>3</td>
  </tr>
  <tr>
    <td>4</td>
    <td>5</td>
    <td>6</td>
  </tr>
  <tr>
    <td>7</td>
    <td>8</td>
    <td>9</td>
  </tr>
</table>

登入後複製

以上HTML程式碼表示了一個3行3列的表格，其中第一行為1，2，3三個列，第二行為4，5，6三個列，第三行為7，8，9三個列。

提取表格數據

要從HTML表格中提取數據，首先需要使用PHP的file_get_contents()函數或curl庫讀取網頁原始碼，然後利用正則表達式符合HTML表格中的資料。以下程式碼示範了從網頁中提取表格數據的基本步驟：

$html = file_get_contents('http://example.com/table.html');  // 获取网页源代码
$pattern = '/<table.*?>.*?</table>/s';  // 匹配table标签及内部内容
preg_match($pattern, $html, $matches);  // 执行正则表达式匹配

if (!empty($matches[0])) {  // 如果匹配结果不为空
  // 从匹配结果中提取表格数据
  $data_pattern = '/<tr.*?>.*?</tr>/s';  // 匹配行标签及内部内容
  preg_match_all($data_pattern, $matches[0], $data_matches);  // 执行正则表达式匹配
  foreach ($data_matches[0] as $row) {  // 遍历匹配结果中的每一行
    $cell_pattern = '/<td.*?>.*?</td>/s';  // 匹配列标签及内部内容
    preg_match_all($cell_pattern, $row, $cell_matches);  // 执行正则表达式匹配
    foreach ($cell_matches[0] as $cell) {  // 遍历每一列
      $text = strip_tags($cell);  // 去除HTML标签，只保留文本内容
      echo $text . ' ';  // 输出每一列的文本内容
    }
    echo "
";  // 换行
  }
}

登入後複製

以上程式碼可以成功地從HTML表格中提取數據，並輸出每一行的內容。在實際應用中，還可以根據需要對表格資料進行進一步的處理，例如將表格資料儲存到資料庫中等。