PHP およびシェルの大きなファイルデータの統計と並べ替え方法-PHPチュートリアル-php.cn

PHP およびシェルの大きなファイルデータの統計と並べ替え方法

WBOY

リリース： 2016-07-25 09:12:56

オリジナル

984 人が閲覧しました

このセクションの内容: シェルとphpを使ってビッグデータを並べ替える方法

ビッグデータの問題、たとえば、4G ファイルがある場合、1G メモリしか搭載していないマシンを使用して、ファイル内の最頻値を計算する方法 (1 行が配列であると仮定します。QQ 番号など)。ファイルがわずか 4B または数十メガバイトの場合、最も簡単な方法は、ファイルを直接読み取り、分析と統計を実行することです。ただし、これは 4G ファイルです。当然、数十 G、場合によっては数百 G になる可能性があります。これは直接読み込むことで解決できません。

このような大きなファイルの場合と同様に、PHP だけを使用するのは決して現実的ではありません。ファイルがどんなに大きくても、まず複数のアプリケーションで使用できる小さなファイルに分割し、次に小さなファイルに分割する必要があるということです。ファイルはバッチまたは順番に分析およびカウントでき、合計結果が要約され、要件を満たす最終結果が得られます。人気のある MapReduce モデルと同様に、その中心的な考え方は「Map (マッピング)」と「Reduce (簡略化)」であり、それに加えて分散ファイル処理は、もちろん、処理に使用できるのは Reduce だけです。

10 億行のファイルがあり、各行に 6 桁から 10 桁の QQ 番号があるとします。解決する必要があるのは、次の PHP を使用して、これらの 10 億 QQ 番号の中で最も頻繁に繰り返される上位 10 個の番号を計算することです。スクリプトはこのファイルを生成します。この乱数には重複はない可能性がありますが、重複する数字が存在すると想定されます。

例えば、

$fp = fopen('qq.txt','w+');
for( $i=0; $i<1000000000; $i++ ){
$str = mt_rand( 10000,9999999999)."n";
fwrite($fp,$str);
}
fclose($fp);

コードをコピー

ファイル生成の世界は比較的長いです php-client を直接使用します。 Linux では PHP ファイルを実行すると時間を節約できます。もちろん、他の方法を使用してファイルを生成することもできます。生成されるファイルは約11Gです。次に、Linux Split を使用してファイルを切り取ります。切り取りの標準は、データ 100 万行ごとに 1 ファイルです。 split -l 1000000 -a 3 qq.txt qqfile qq.txt は qqfileaaa から qqfilebml という名前の 1000 個のファイルに分割されており、各ファイルのサイズは 11MB です。現時点ではどのような処理方法を使用しても比較的簡単です。

分析と統計には PHP を使用します。

$results = array();
foreach( glob('/tmp/qq/*') as $file ){
$fp = fopen($file,'r') ;
$arr = array();
while( $qq = fgets($fp) ){
$qq = トリム($qq);
isset($arr[$qq]) $arr[$qq]+ ? + : $arr[$qq]=1;
}
arsort($arr);
//以下の処理方法に問題があります
do{
$i=0;
foreach( $arr as $qq= >$times ){
if( $i > 10 ){
isset($results[$qq]) $results[$qq]+=$times :$results[$qq]=$times;
$ i++;
} else {
Break;
}
}
} while(false);
fclose($fp);
}
if( $results ){
arsort($results);
do{
$i= 0;
foreach ( $results as $qq=>$times ){
if( $i > 10 ){
echo $qq . $times "n" ;
$i++;
} {
Break;
}
}
} while(false);
}

各サンプルの上位 10 個が取得され、最終的に分析と統計のためにまとめられるように、コードをコピーします

各サンプルには 11 位にランクされる数値が存在するが、合計の数値は間違いなく上位 10 位にあるため、後続の統計計算アルゴリズムを改善する必要があると除外されました。 Linux の awk や sort コマンドを使えばソートできるという人もいるかもしれないが、試してみたところ、小さいファイルならなんとかなるが、11G のファイルとなるとメモリも時間も耐えられない。

1 awk+sort スクリプト: awk -F '\@' '{name[$1]++ } END {for (名前の数) print name[count],count}' qq.txt |sort -n > 123.txt 大きなファイルの処理であれ、ビッグデータの可能性であれ、大きな需要があります。