如何用PHP進行資料預處理與特徵工程-php教程-PHP中文網

如何用PHP進行資料預處理與特徵工程

WBOY

發布： 2023-07-29 15:38:01

原創

852 人瀏覽過

如何用PHP進行資料預處理與特徵工程

資料預處理和特徵工程是資料科學中非常重要的步驟，它們可以幫助我們清洗資料、處理缺失值、進行特徵提取和轉換，以及準備機器學習和深度學習模型所需的輸入資料。在本文中，我們將討論如何用PHP進行資料預處理和特徵工程，並提供一些程式碼範例來幫助你入門。

匯入資料
首先，我們需要從外部資料來源匯入資料。根據具體情況，你可以從資料庫、CSV檔案、Excel檔案或其他資料來源載入資料。這裡我們以CSV檔案為例，使用PHP的fgetcsv函數來讀取CSV檔案中的資料。

$csvFile = 'data.csv';
$data = [];

if (($handle = fopen($csvFile, 'r')) !== false) {
    while (($row = fgetcsv($handle)) !== false) {
        $data[] = $row;
    }
    fclose($handle);
}

// 打印数据
print_r($data);

登入後複製

資料清洗
資料清洗是資料預處理的一部分，它包括處理缺失值、異常值和重複值等。以下是一些常見的資料清洗操作和對應的PHP程式碼範例。

處理缺失值：透過判斷某個特徵是否為null或空來處理缺失值，並進行對應的填入或刪除運算。

foreach ($data as &$row) {
    for ($i = 0; $i < count($row); $i++) {
        if ($row[$i] === null || $row[$i] === '') {
            // 填充缺失值为0
            $row[$i] = 0;
        }
    }
}

登入後複製

處理異常值：透過設定閾值，將異常值替換為平均值、中位數或眾數等。

foreach ($data as &$row) {
    for ($i = 0; $i < count($row); $i++) {
        if ($row[$i] < $lowerThreshold || $row[$i] > $upperThreshold) {
            // 替换异常值为平均值
            $row[$i] = $meanValue;
        }
    }
}

登入後複製

處理重複值：透過判斷資料是否重複，並進行刪除動作。

$newData = [];
$uniqueKeys = [];

foreach ($data as $row) {
    $key = implode('-', $row);
    if (!in_array($key, $uniqueKeys)) {
        $newData[] = $row;
        $uniqueKeys[] = $key;
    }
}

// 更新数据
$data = $newData;

登入後複製

特徵提取與轉換
特徵提取和轉換是特徵工程的一部分，它可以幫助我們從原始資料中提取有效的特徵，以便於模型訓練和預測。以下是一些常見的特徵提取和轉換操作和對應的PHP程式碼範例。

離散特徵編碼：將離散特徵轉換為數字編碼，方便模型處理。

$categories = ['cat', 'dog', 'rabbit'];
$encodedData = [];

foreach ($data as $row) {
    $encodedRow = [];
    foreach ($row as $value) {
        if (in_array($value, $categories)) {
            // 使用数字编码离散特征值
            $encodedRow[] = array_search($value, $categories);
        } else {
            // 原样保留其他特征值
            $encodedRow[] = $value;
        }
    }
    $encodedData[] = $encodedRow;
}

登入後複製

特徵標準化：將特徵資料依照某一規則縮放，以便於模型訓練和預測。

$normalizedData = [];

foreach ($data as $row) {
    $mean = array_sum($row) / count($row); // 计算平均值
    $stdDev = sqrt(array_sum(array_map(function ($value) use ($mean) {
        return pow($value - $mean, 2);
    }, $row)) / count($row)); // 计算标准差

    $normalizedRow = array_map(function ($value) use ($mean, $stdDev) {
        // 标准化特征值
        return ($value - $mean) / $stdDev;
    }, $row);
    $normalizedData[] = $normalizedRow;
}

登入後複製

資料準備與模型訓練
經過資料預處理和特徵工程後，我們可以將資料準備好，並使用機器學習或深度學習模型進行訓練和預測。這裡我們以使用PHP-ML函式庫中的K-Means聚類演算法為例來進行模型訓練。

require 'vendor/autoload.php';

use PhpmlClusteringKMeans;

$clusterer = new KMeans(3); // 设定聚类数为3
$clusterer->train($normalizedData);

$clusterLabels = $clusterer->predict($normalizedData);

// 打印聚类结果
print_r($clusterLabels);

登入後複製

以上是如何用PHP進行資料預處理和特徵工程的簡單範例。當然，資料預處理和特徵工程還有很多其他操作和技巧，具體的選擇和實現方式可以根據特定問題和需求來決定。希望本文能幫助你入門資料預處理和特徵工程，並為你進行機器學習和深度學習模型的訓練打下堅實的基礎。

以上是如何用PHP進行資料預處理與特徵工程的詳細內容。更多資訊請關注PHP中文網其他相關文章！