大規模な CSV ファイルを効率的に処理することは、データ分析から ETL (抽出、変換、読み込み) プロセスに至るまで、多くのアプリケーションで共通の要件です。この記事では、MacBook Pro M1 で大きな CSV ファイルを処理する際の、Golang、NodeJS with NestJS、PHP、Python の 4 つの一般的なプログラミング言語のパフォーマンスをベンチマークしたいと思います。どの言語がこのタスクに最適なパフォーマンスを提供するかを判断することを目的としています。
ハードウェア: MacBook Pro M1、256GB SSD、8GB RAM
ソフトウェア:
約 100 万行が含まれる sales_data.csv という名前の合成 CSV ファイルを使用しました。各行には、transaction_id、product_id、数量、価格、タイムスタンプなどのトランザクションの詳細が含まれています。
各言語について、スクリプトは次のタスクを実行します:
各言語で使用されるスクリプトは次のとおりです:
セールス.ゴー
package main
import (
"encoding/csv"
"fmt"
"os"
"strconv"
"time"
)
func main() {
start := time.Now()
file, err := os.Open("../generate-csv/sales_data.csv")
if err != nil {
fmt.Println("Error:", err)
return
}
defer file.Close()
reader := csv.NewReader(file)
_, _ = reader.Read() // Skip header
totalSales := 0.0
productSales := make(map[string]float64)
for {
line, err := reader.Read()
if err != nil {
break
}
productID := line[1]
quantity, _ := strconv.Atoi(line[2])
price, _ := strconv.ParseFloat(line[3], 64)
total := float64(quantity) * price
totalSales += total
productSales[productID] += total
}
var topProduct string
var topSales float64
for product, sales := range productSales {
if sales > topSales {
topProduct = product
topSales = sales
}
}
elapsed := time.Since(start)
fmt.Printf("Golang Execution time: %s\n", elapsed)
fmt.Printf("Total Sales: $%.2f\n", totalSales)
fmt.Printf("Top Product: %s with sales $%.2f\n", topProduct, topSales)
}
csv.service.ts
import { Injectable } from '@nestjs/common';
import * as fs from 'fs';
import * as fastcsv from 'fast-csv';
// path file CSV
const GLOBAL_CSV_PATH = '../generate-csv/sales_data.csv';
@Injectable()
@Injectable()
export class CsvService {
async parseCsv(): Promise<{
nestExecutionTime: number;
totalSales: number;
topProductSales: number;
}> {
return new Promise((resolve, reject) => {
const startTime = process.hrtime();
let totalSales = 0;
const productSales: { [key: string]: number } = {};
fs.createReadStream(GLOBAL_CSV_PATH)
.pipe(fastcsv.parse({ headers: true, delimiter: ',' }))
.on('data', (row) => {
const productID = row.product_id;
const quantity = parseInt(row.quantity, 10);
const price = parseFloat(row.price);
const total = quantity * price;
totalSales += total;
if (!productSales[productID]) {
productSales[productID] = 0;
}
productSales[productID] += total;
})
.on('end', () => {
const topProduct = Object.keys(productSales).reduce((a, b) =>
productSales[a] > productSales[b] ? a : b,
);
const topProductSales = productSales[topProduct] || 0;
const endTime = process.hrtime(startTime);
const nestExecutionTime = endTime[0] + endTime[1] / 1e9;
console.log(`NestJS Execution time: ${nestExecutionTime} seconds`);
console.log(`Total Sales: $${totalSales}`);
console.log(
`Top Product: ${topProduct} with sales $${topProductSales}`,
);
resolve({
nestExecutionTime,
totalSales,
topProductSales,
});
})
.on('error', (error) => reject(error));
});
}
}
csv.controller.ts
import { Controller, Get } from '@nestjs/common';
import { CsvService } from './csv.service';
@Controller('csv')
export class CsvController {
constructor(private readonly csvService: CsvService) {}
@Get('parse')
async parseCsv(): Promise<{
nestExecutionTime: number;
totalSales: number;
topProductSales: number;
}> {
return this.csvService.parseCsv();
}
}
sales.php
<?php
$start_time = microtime(true);
$file = fopen("../generate-csv/sales_data.csv", "r");
$total_sales = 0;
$product_sales = [];
fgetcsv($file); // Skip header
while (($line = fgetcsv($file)) !== false) {
$product_id = $line[1];
$quantity = (int)$line[2];
$price = (float)$line[3];
$total = $quantity * $price;
$total_sales += $total;
if (!isset($product_sales[$product_id])) {
$product_sales[$product_id] = 0;
}
$product_sales[$product_id] += $total;
}
fclose($file);
arsort($product_sales);
$top_product = array_key_first($product_sales);
$end_time = microtime(true);
$execution_time = ($end_time - $start_time);
echo "PHP Execution time: ".$execution_time." seconds\n";
echo "Total Sales: $".$total_sales."\n";
echo "Top Product: ".$top_product." with sales $".$product_sales[$top_product]."\n";
import csv
import time
# Input file name config
input_file = '../generate-csv/sales_data.csv'
def parse_csv(file_path):
start_time = time.time()
total_sales = 0
product_sales = {}
with open(file_path, mode='r') as file:
reader = csv.DictReader(file)
for row in reader:
product_id = row['product_id']
quantity = int(row['quantity'])
price = float(row['price'])
total = quantity * price
total_sales += total
if product_id not in product_sales:
product_sales[product_id] = 0
product_sales[product_id] += total
top_product = max(product_sales, key=product_sales.get)
execution_time = time.time() - start_time
return {
'total_sales': total_sales,
'top_product': top_product,
'top_product_sales': product_sales[top_product],
'execution_time': execution_time,
}
if __name__ == "__main__":
result = parse_csv(input_file)
print(f"Python Execution time: {result['execution_time']:.2f} seconds")
print(f"Total Sales: ${result['total_sales']:.2f}")
print(f"Top Product: {result['top_product']} with sales ${
result['top_product_sales']:.2f}")
ベンチマーク テストの結果は次のとおりです:




私のベンチマークにより、いくつかの興味深い洞察が明らかになりました。
実行時間: 実行時間の点では Golang が最も優れており、僅差で PHP8 がそれに続きますが、タスクの完了には NestJS が最も長い時間を要しました。
メモリ使用量: Build NestJS は効率的なメモリ使用量を示しましたが、Python はより高いメモリ消費量を示しました。
実装の容易さ: Golang は最も簡単な実装を提供しましたが、NestJS はより多くのコード行と複雑さを必要としました。
私の調査結果によれば、Golang は最高のパフォーマンス速度とメモリ効率を提供し、大規模なデータセットを処理するのに最適な選択肢となっています。
完全なコードは My Github リポジトリで入手できます
csv-parsing-battle.
以上がCSV ファイル処理のベンチマーク: Golang vs NestJS vs PHP vs Pythonの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。