Penyepaduan BigQuery dan XGBoost: Tutorial Buku Nota Jupyter untuk Pengelasan Perduaan-Tutorial Python-php.cn

BigQuery and XGBoost Integration: A Jupyter Notebook Tutorial for Binary Classification

pengenalan

Dalam memilih model klasifikasi binari untuk data jadual, saya memutuskan untuk mencuba model pembelajaran yang pantas dan tidak mendalam: Gradient Boosting Decision Trees (GBDT). Artikel ini menerangkan proses mencipta skrip Buku Nota Jupyter menggunakan BigQuery sebagai sumber data dan algoritma XGBoost untuk pemodelan.

Skrip Lengkap

Bagi mereka yang lebih suka melompat terus ke dalam skrip tanpa penjelasan, ini dia. Sila laraskan nama_projek, nama_set data dan nama_jadual agar sesuai dengan projek anda.

import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import precision_score, recall_score, f1_score, log_loss
from google.cloud import bigquery

# Function to load data from BigQuery
def load_data_from_bigquery(query):
    client = bigquery.Client()
    query_job = client.query(query)
    df = query_job.to_dataframe()
    return df

def compute_metrics(labels, predictions, prediction_probs):
    precision = precision_score(labels, predictions, average='macro')
    recall = recall_score(labels, predictions, average='macro')
    f1 = f1_score(labels, predictions, average='macro')
    loss = log_loss(labels, prediction_probs)
    return {
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'loss': loss
    }

# Query in BigQuery
query = """
SELECT *
FROM `<project_name>.<dataset_name>.<table_name>`
"""

# Loading data
df = load_data_from_bigquery(query)

# Target data
y = df["reaction"]

# Input data
X = df.drop(columns=["reaction"], axis=1)

# Splitting data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1)

# Training the XGBoost model
model = xgb.XGBClassifier(eval_metric='logloss')

# Setting the parameter grid
param_grid = {
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'subsample': [0.8, 0.9, 1.0]
}

# Initializing GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1)

# Executing the grid search
grid_search.fit(X_train, y_train)

# Displaying the best parameters
print("Best parameters:", grid_search.best_params_)

# Model with the best parameters
best_model = grid_search.best_estimator_

# Predictions on validation data
val_predictions = best_model.predict(X_val)
val_prediction_probs = best_model.predict_proba(X_val)

# Predictions on training data
train_predictions = best_model.predict(X_train)
train_prediction_probs = best_model.predict_proba(X_train)

# Evaluating the model (validation data)
val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs)
print("Optimized Validation Metrics:", val_metrics)

# Evaluating the model (training data)
train_metrics = compute_metrics(y_train, train_predictions, train_prediction_probs)
print("Optimized Training Metrics:", train_metrics)

Salin selepas log masuk

Penjelasan

Memuatkan Data daripada BigQuery

Sebelum ini, data telah disimpan dalam Cloud Storage sebagai fail CSV, tetapi pemuatan data yang perlahan telah mengurangkan kecekapan proses pembelajaran kami, mendorong peralihan kepada BigQuery untuk pengendalian data yang lebih pantas.

Menyediakan Klien BigQuery

from google.cloud import bigquery
client = bigquery.Client()

Salin selepas log masuk

Kod ini memulakan klien BigQuery menggunakan bukti kelayakan Google Cloud, yang boleh disediakan melalui pembolehubah persekitaran atau SDK Awan Google.

Menyoal dan Memuatkan Data

def load_data_from_bigquery(query):
    query_job = client.query(query)
    df = query_job.to_dataframe()
    return df

Salin selepas log masuk

Fungsi ini melaksanakan pertanyaan SQL dan mengembalikan hasilnya sebagai DataFrame dalam Pandas, membolehkan pemprosesan data yang cekap.

Melatih Model dengan XGBoost

XGBoost ialah algoritma pembelajaran mesin berprestasi tinggi yang menggunakan peningkatan kecerunan, digunakan secara meluas untuk masalah klasifikasi dan regresi.

https://arxiv.org/pdf/1603.02754

Permulaan Model

import xgboost as xgb
model = xgb.XGBClassifier(eval_metric='logloss')

Salin selepas log masuk

Di sini, kelas XGBClassifier dibuat seketika, menggunakan kehilangan log sebagai metrik penilaian.

Pemisahan Data

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1)

Salin selepas log masuk

Fungsi ini membahagikan data kepada set latihan dan pengesahan, yang penting untuk menguji prestasi model dan mengelakkan pemasangan berlebihan.

Pengoptimuman Parameter

from sklearn.model_selection import GridSearchCV
param_grid = {
    'max_depth': [3, 4, 5],
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'subsample': [0.8, 0.9, 1.0]
}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1)
grid_search.fit(X_train, y_train)

Salin selepas log masuk

GridSearchCV melakukan pengesahan silang untuk mencari gabungan parameter terbaik untuk model.

Penilaian Model

Prestasi model dinilai menggunakan ketepatan, ingat semula, skor F1 dan kehilangan log pada set data pengesahan.

def compute_metrics(labels, predictions, prediction_probs):
    from sklearn.metrics import precision_score, recall_score, f1_score, log_loss
    return {
        'precision': precision_score(labels, predictions, average='macro'),
        'recall': recall_score(labels, predictions, average='macro'),
        'f1': f1_score(labels, predictions, average='macro'),
        'loss': log_loss(labels, prediction_probs)
    }
val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs)
print("Optimized Validation Metrics:", val_metrics)

Salin selepas log masuk

Keputusan Output

Apabila anda menjalankan buku nota, anda akan mendapat output berikut yang menunjukkan parameter terbaik dan metrik penilaian model.

Best parameters: {'learning_rate': 0.2, 'max_depth': 5, 'n_estimators': 300, 'subsample': 0.9}
Optimized Validation Metrics: {'precision': 0.8919952583956949, 'recall': 0.753797304483842, 'f1': 0.8078981867164722, 'loss': 0.014006406471894417}
Optimized Training Metrics: {'precision': 0.8969556573175115, 'recall': 0.7681976753444204, 'f1': 0.8199353049298048, 'loss': 0.012475375680566196}

Salin selepas log masuk

Maklumat Tambahan

Menggunakan Storan Awan Google sebagai Sumber Data

Dalam sesetengah kes, mungkin lebih sesuai untuk memuatkan data daripada Storan Awan Google berbanding BigQuery. Fungsi berikut membaca fail CSV daripada Cloud Storage dan mengembalikannya sebagai DataFrame dalam Pandas dan boleh digunakan secara bergantian dengan fungsi load_data_from_bigquery.

from google.cloud import storage

def load_data_from_gcs(bucket_name, file_path):
    client = storage.Client()
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(file_path)
    data = blob.download_as_text()
    df = pd.read_csv(io.StringIO(data), encoding='utf-8')
    return df

Salin selepas log masuk

Contoh penggunaan:

bucket_name = '<bucket-name>'
file_path = '<file-path>'

df = load_data_from_gcs(bucket_name, file_path)

Salin selepas log masuk

Melatih Model dengan LightGBM

Jika anda ingin menggunakan LightGBM dan bukannya XGBoost, anda boleh menggantikan XGBClassifier dengan LGMClassifier dalam persediaan yang sama.

import lightgbm as lgb
model = lgb.LGBMClassifier()

Salin selepas log masuk

Kesimpulan

Artikel akan datang akan merangkumi penggunaan BigQuery ML (BQML) untuk latihan.

Atas ialah kandungan terperinci Penyepaduan BigQuery dan XGBoost: Tutorial Buku Nota Jupyter untuk Pengelasan Perduaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!