Linuxで重複した統計を削除する方法-Linuxの運用と保守-php.cn

Linuxで重複した統計を削除する方法

(*-*)浩

リリース： 2019-05-28 17:00:59

オリジナル

4590 人が閲覧しました

Linux コマンドラインは、非常に強力なテキスト処理機能を提供します。Linux コマンドを組み合わせて使用すると、多くの強力な機能を実現できます。この記事では、Linux コマンドラインを使用してテキストを行ごとに重複排除し、繰り返し数で並べ替える方法の例を示します。使用される主なコマンドは、sort、uniq、cut です。このうち、sort の主な機能はソート、uniq の主な機能は隣接するテキスト行の重複排除を実現すること、cut はテキスト行から対応するテキスト列を抽出することができます (簡単に言うと、テキスト行を操作することです)列ごとに）。

Linuxで重複した統計を削除する方法

重複するテキスト行を削除し、繰り返しの数で並べ替えます。

例:

まず、テキスト行の重複を除去し、繰り返しの数を数えます (uniq コマンドに -c オプションを追加すると、繰り返しの数を数えることができます)。

$ sort test.txt | uniq -c 
2 Apple and Nokia. 
4 Hello World. 
1 I wanna buy an Apple device. 
1 My name is Friendfish. 
2 The Iphone of Apple company.

ログイン後にコピー

テキストの行を繰り返しの数で並べ替えます。

sort -n は、各行の先頭の番号を識別し、サイズに基づいてテキスト行を並べ替えます。デフォルトでは昇順にソートされますが、降順にソートする場合は、-r オプション (sort -rn) を追加します。

$ sort test.txt | uniq -c | sort -rn 
4 Hello World. 
2 The Iphone of Apple company. 
2 Apple and Nokia. 
1 My name is Friendfish.

ログイン後にコピー

各行の前にある削除された重複の数。

#cut コマンドはテキスト行を列ごとに操作できます。前回の繰り返し回数は 8 文字分であることがわかるので、cut -c 9- コマンドを使用すると、各行の 9 文字目以降を削除できます。

うわー

以上がLinuxで重複した統計を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。