信用卡欺诈对金融业构成重大威胁,每年造成数十亿美元的损失。为了解决这个问题,人们开发了机器学习模型来实时检测和防止欺诈交易。在本文中,我们将逐步介绍使用 FastAPI(Python 的现代 Web 框架)以及在 Kaggle 流行的信用卡欺诈检测数据集上训练的随机森林分类器构建实时信用卡欺诈检测系统的过程。
该项目的目标是创建一个 Web 服务来预测信用卡交易欺诈的可能性。该服务接受交易数据,对其进行预处理,然后返回预测以及欺诈概率。该系统设计快速、可扩展,并且易于集成到现有的金融系统中。
本项目使用的数据集是来自 Kaggle 的信用卡欺诈检测数据集,其中包含 284,807 笔交易,其中只有 492 笔是欺诈交易。这种类别不平衡带来了挑战,但可以通过对少数类别进行过采样来解决。
这些功能首先使用 scikit-learn 的 StandardScaler 进行标准化。然后将数据集分为训练集和测试集。鉴于不平衡,在训练模型之前应用 RandomOverSampler 技术来平衡类别。
from sklearn.preprocessing import StandardScaler from imblearn.over_sampling import RandomOverSampler # Standardize features scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Balance the dataset ros = RandomOverSampler(random_state=42) X_resampled, y_resampled = ros.fit_resample(X_scaled, y)
我们训练了一个随机森林分类器,它非常适合处理不平衡的数据集并提供可靠的预测。该模型在过采样数据上进行训练,并使用准确度、精确度、召回率和 AUC-ROC 曲线来评估其性能。
from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, roc_auc_score # Train the model model = RandomForestClassifier(n_estimators=100, random_state=42) model.fit(X_resampled, y_resampled) # Evaluate the model y_pred = model.predict(X_test_scaled) print(classification_report(y_test, y_pred)) print("AUC-ROC:", roc_auc_score(y_test, model.predict_proba(X_test_scaled)[:, 1]))
使用 joblib 保存训练好的模型和缩放器后,我们继续构建 FastAPI 应用程序。选择 FastAPI 是因为其速度快且易于使用,使其成为实时应用程序的理想选择。
FastAPI 应用程序定义了一个 POST 端点 /predict/,它接受交易数据、对其进行处理并返回模型的预测和概率。
from fastapi import FastAPI, HTTPException from pydantic import BaseModel import joblib import pandas as pd # Load the trained model and scaler model = joblib.load("random_forest_model.pkl") scaler = joblib.load("scaler.pkl") app = FastAPI() class Transaction(BaseModel): V1: float V2: float # Include all other features used in your model Amount: float @app.post("/predict/") def predict(transaction: Transaction): try: data = pd.DataFrame([transaction.dict()]) scaled_data = scaler.transform(data) prediction = model.predict(scaled_data) prediction_proba = model.predict_proba(scaled_data) return {"fraud_prediction": int(prediction[0]), "probability": float(prediction_proba[0][1])} except Exception as e: raise HTTPException(status_code=400, detail=str(e))
本地运行 API
uvicorn main:app --reload
curl -X POST http://127.0.0.1:8000/predict/ \ -H "Content-Type: application/json" \ -d '{"V1": -1.359807134, "V2": -0.072781173, ..., "Amount": 149.62}'
结论
通过使用 FastAPI 部署此模型,我们确保服务不仅快速而且可扩展,能够同时处理多个请求。该项目可以通过更复杂的模型、改进的特征工程或与生产环境的集成来进一步扩展。
下一步
以上是使用 FastAPI 和机器学习构建实时信用卡欺诈检测系统的详细内容。更多信息请关注PHP中文网其他相关文章!