Dalam memilih model klasifikasi binari untuk data jadual, saya memutuskan untuk mencuba model pembelajaran yang pantas dan tidak mendalam: Gradient Boosting Decision Trees (GBDT). Artikel ini menerangkan proses mencipta skrip Buku Nota Jupyter menggunakan BigQuery sebagai sumber data dan algoritma XGBoost untuk pemodelan.
Bagi mereka yang lebih suka melompat terus ke dalam skrip tanpa penjelasan, ini dia. Sila laraskan nama_projek, nama_set data dan nama_jadual agar sesuai dengan projek anda.
import xgboost as xgb from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.metrics import precision_score, recall_score, f1_score, log_loss from google.cloud import bigquery # Function to load data from BigQuery def load_data_from_bigquery(query): client = bigquery.Client() query_job = client.query(query) df = query_job.to_dataframe() return df def compute_metrics(labels, predictions, prediction_probs): precision = precision_score(labels, predictions, average='macro') recall = recall_score(labels, predictions, average='macro') f1 = f1_score(labels, predictions, average='macro') loss = log_loss(labels, prediction_probs) return { 'precision': precision, 'recall': recall, 'f1': f1, 'loss': loss } # Query in BigQuery query = """ SELECT * FROM `<project_name>.<dataset_name>.<table_name>` """ # Loading data df = load_data_from_bigquery(query) # Target data y = df["reaction"] # Input data X = df.drop(columns=["reaction"], axis=1) # Splitting data into training and validation sets X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1) # Training the XGBoost model model = xgb.XGBClassifier(eval_metric='logloss') # Setting the parameter grid param_grid = { 'max_depth': [3, 4, 5], 'learning_rate': [0.01, 0.1, 0.2], 'n_estimators': [100, 200, 300], 'subsample': [0.8, 0.9, 1.0] } # Initializing GridSearchCV grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1) # Executing the grid search grid_search.fit(X_train, y_train) # Displaying the best parameters print("Best parameters:", grid_search.best_params_) # Model with the best parameters best_model = grid_search.best_estimator_ # Predictions on validation data val_predictions = best_model.predict(X_val) val_prediction_probs = best_model.predict_proba(X_val) # Predictions on training data train_predictions = best_model.predict(X_train) train_prediction_probs = best_model.predict_proba(X_train) # Evaluating the model (validation data) val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs) print("Optimized Validation Metrics:", val_metrics) # Evaluating the model (training data) train_metrics = compute_metrics(y_train, train_predictions, train_prediction_probs) print("Optimized Training Metrics:", train_metrics)
Sebelum ini, data telah disimpan dalam Cloud Storage sebagai fail CSV, tetapi pemuatan data yang perlahan telah mengurangkan kecekapan proses pembelajaran kami, mendorong peralihan kepada BigQuery untuk pengendalian data yang lebih pantas.
from google.cloud import bigquery client = bigquery.Client()
Kod ini memulakan klien BigQuery menggunakan bukti kelayakan Google Cloud, yang boleh disediakan melalui pembolehubah persekitaran atau SDK Awan Google.
def load_data_from_bigquery(query): query_job = client.query(query) df = query_job.to_dataframe() return df
Fungsi ini melaksanakan pertanyaan SQL dan mengembalikan hasilnya sebagai DataFrame dalam Pandas, membolehkan pemprosesan data yang cekap.
XGBoost ialah algoritma pembelajaran mesin berprestasi tinggi yang menggunakan peningkatan kecerunan, digunakan secara meluas untuk masalah klasifikasi dan regresi.
https://arxiv.org/pdf/1603.02754
import xgboost as xgb model = xgb.XGBClassifier(eval_metric='logloss')
Di sini, kelas XGBClassifier dibuat seketika, menggunakan kehilangan log sebagai metrik penilaian.
from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=1)
Fungsi ini membahagikan data kepada set latihan dan pengesahan, yang penting untuk menguji prestasi model dan mengelakkan pemasangan berlebihan.
from sklearn.model_selection import GridSearchCV param_grid = { 'max_depth': [3, 4, 5], 'learning_rate': [0.01, 0.1, 0.2], 'n_estimators': [100, 200, 300], 'subsample': [0.8, 0.9, 1.0] } grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', verbose=1, n_jobs=-1) grid_search.fit(X_train, y_train)
GridSearchCV melakukan pengesahan silang untuk mencari gabungan parameter terbaik untuk model.
Prestasi model dinilai menggunakan ketepatan, ingat semula, skor F1 dan kehilangan log pada set data pengesahan.
def compute_metrics(labels, predictions, prediction_probs): from sklearn.metrics import precision_score, recall_score, f1_score, log_loss return { 'precision': precision_score(labels, predictions, average='macro'), 'recall': recall_score(labels, predictions, average='macro'), 'f1': f1_score(labels, predictions, average='macro'), 'loss': log_loss(labels, prediction_probs) } val_metrics = compute_metrics(y_val, val_predictions, val_prediction_probs) print("Optimized Validation Metrics:", val_metrics)
Apabila anda menjalankan buku nota, anda akan mendapat output berikut yang menunjukkan parameter terbaik dan metrik penilaian model.
Best parameters: {'learning_rate': 0.2, 'max_depth': 5, 'n_estimators': 300, 'subsample': 0.9} Optimized Validation Metrics: {'precision': 0.8919952583956949, 'recall': 0.753797304483842, 'f1': 0.8078981867164722, 'loss': 0.014006406471894417} Optimized Training Metrics: {'precision': 0.8969556573175115, 'recall': 0.7681976753444204, 'f1': 0.8199353049298048, 'loss': 0.012475375680566196}
Dalam sesetengah kes, mungkin lebih sesuai untuk memuatkan data daripada Storan Awan Google berbanding BigQuery. Fungsi berikut membaca fail CSV daripada Cloud Storage dan mengembalikannya sebagai DataFrame dalam Pandas dan boleh digunakan secara bergantian dengan fungsi load_data_from_bigquery.
from google.cloud import storage def load_data_from_gcs(bucket_name, file_path): client = storage.Client() bucket = client.get_bucket(bucket_name) blob = bucket.blob(file_path) data = blob.download_as_text() df = pd.read_csv(io.StringIO(data), encoding='utf-8') return df
Contoh penggunaan:
bucket_name = '<bucket-name>' file_path = '<file-path>' df = load_data_from_gcs(bucket_name, file_path)
Jika anda ingin menggunakan LightGBM dan bukannya XGBoost, anda boleh menggantikan XGBClassifier dengan LGMClassifier dalam persediaan yang sama.
import lightgbm as lgb model = lgb.LGBMClassifier()
Artikel akan datang akan merangkumi penggunaan BigQuery ML (BQML) untuk latihan.
Atas ialah kandungan terperinci Penyepaduan BigQuery dan XGBoost: Tutorial Buku Nota Jupyter untuk Pengelasan Perduaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!