Maison > Opération et maintenance > exploitation et maintenance Linux > Comment supprimer les statistiques en double sous Linux

Comment supprimer les statistiques en double sous Linux

(*-*)浩
Libérer: 2019-05-28 17:00:59
original
4590 Les gens l'ont consulté

La ligne de commande Linux fournit des fonctions de traitement de texte très puissantes, et de nombreuses fonctions puissantes peuvent être obtenues en combinant des commandes Linux. Cet article donne un exemple d'utilisation de la ligne de commande Linux pour dédupliquer du texte par ligne et trier par nombre de répétitions. Les principales commandes utilisées sont sort, uniq et cut. Parmi eux, la fonction principale du tri est de trier, la fonction principale d'uniq est de réaliser la déduplication des lignes de texte adjacentes, et cut peut extraire les colonnes de texte correspondantes des lignes de texte (en termes simples, il s'agit d'exploiter les lignes de texte par colonnes).

Comment supprimer les statistiques en double sous Linux

Les lignes de texte sont dédoublonnées et triées par nombre de répétitions

Exemple :

Tout d'abord, dédupliquez les lignes de texte et comptez le nombre de répétitions (l'ajout de l'option -c à la commande uniq peut compter le nombre de répétitions).

$ sort test.txt | uniq -c 
2 Apple and Nokia. 
4 Hello World. 
1 I wanna buy an Apple device. 
1 My name is Friendfish. 
2 The Iphone of Apple company.
Copier après la connexion

Triez les lignes de texte par nombre de répétitions.

sort -n peut identifier le numéro au début de chaque ligne et trier les lignes de texte en fonction de leur taille. La valeur par défaut est de trier par ordre croissant. Si vous souhaitez trier par ordre décroissant, ajoutez l'option -r (sort -rn).

$ sort test.txt | uniq -c | sort -rn 
4 Hello World. 
2 The Iphone of Apple company. 
2 Apple and Nokia. 
1 My name is Friendfish.
Copier après la connexion

Le nombre de doublons supprimés devant chaque ligne. La commande

cut peut opérer des lignes de texte colonne par colonne. On peut voir que le nombre de répétitions précédent occupe 8 caractères. Par conséquent, vous pouvez utiliser la commande cut -c 9- pour supprimer le 9ème caractère et les suivants de chaque ligne.

$ sort test.txt | uniq -c | sort -rn | cut -c 9- 
Hello World. 
The Iphone of Apple company. 
Apple and Nokia. 
My name is Friendfish. 
I wanna buy an Apple device.
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal