コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > 運用・保守 > Linuxの運用と保守 > 大きなファイルのソートと重複排除のシンプルな実装

大きなファイルのソートと重複排除のシンプルな実装

巴扎黑

リリース： 2017-09-04 14:28:59

オリジナル

4334 人が閲覧しました

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

ログイン後にコピー

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

以上が大きなファイルのソートと重複排除のシンプルな実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

成し遂げる単純

ソース：php.cn

前の記事：CentOS上にFTPサーバーを構築する次の記事：Linux で削除するファイルが多すぎてシェルによって制限される問題を解決する非常に簡単な方法

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

PHP配列に要素を追加する方法

2023-03-14 15:58:02
シンプルな多肢選択評価システムを実装する JS を示す例

1970-01-01 08:00:00
同じ IP の複数の送信を制限する PHP ソリューション

2023-03-15 07:38:01
正規表現を使用して HTML でフォーム検証を実装する

1970-01-01 08:00:00
JavaScript 厳密モードでのこの指摘の問題の詳細な説明

1970-01-01 08:00:00
Java でツリーメニュー (マルチレベルメニューを含む) を構築するためのコード例

1970-01-01 08:00:00
ホバーが離れたときにスムーズな遷移を実装する CSS3 の詳細な例

1970-01-01 08:00:00
スワイパーカルーセル画像のソースコード共有分析

1970-01-01 08:00:00
VsCode プラグインを要約して整理する

1970-01-01 08:00:00
HttpUtils リクエストツールクラスコード

1970-01-01 08:00:00

最新の問題

Google Chromeのモバイル版を表示する方法こんにちは、先生、Google Chrome をモバイル版に変更するにはどうすればよいですか?

から 2024-04-23 00:22:19

0

9

1588

URL パラメータから取得した PHP 配列が期待どおりに動作しないカテゴリ ID を含む URL パラメータがあり、それを次のような配列として扱いたいと考えています: http://example.com?cat[]=3,9,13 PHP では、...

から 2024-04-06 22:09:02

0

1

1428

戻り値の変数の形式は何ですか? 私はphpの初心者です。コードを見つけました: if($x<time()){return[false,'error'];} ロジックや変数は重要ではありませんが、[false...

から 2024-04-06 21:55:20

0

1

778

単語と一致する正規表現新しいジョブ名をデータベース内の既存のジョブ名と照合しようとするスクリプトがあります。 SELECTa.titleASJobTitle,j.DescriptionASMatched...

から 2024-04-06 21:24:04

0

1

606

数独チェッカーが動作しないのですが？エラーの特定を手伝ってくれる人はいますか? オンラインエディターですべてを試しましたが、それでもエラーが発生します。しかし、私のマシンのVSCodeでこれを実行すると、正常に動作します。混乱していて、バグを見つけずにコードを...

から 2024-04-06 21:21:07

0

1

474

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート