Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Betrieb und Instandhaltung > Betrieb und Wartung von Linux > Einfache Implementierung der Sortierung und Deduplizierung großer Dateien

Einfache Implementierung der Sortierung und Deduplizierung großer Dateien

巴扎黑

Freigeben： 2017-09-04 14:28:59

Original

4336 Leute haben es durchsucht

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

Nach dem Login kopieren

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

Das obige ist der detaillierte Inhalt vonEinfache Implementierung der Sortierung und Deduplizierung großer Dateien. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten：

实现简单

Quelle：php.cn

Vorheriger Artikel：Erstellen Sie einen FTP-Server unter CentOS Nächster Artikel：Eine sehr einfache Möglichkeit, das Problem des Löschens zu vieler Dateien und der Einschränkung durch die Shell unter Linux zu lösen

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

So fügen Sie Elemente zum PHP-Array hinzu

2023-03-14 15:58:02
Beispiel, das zeigt, wie JS ein einfaches Multiple-Choice-Bewertungssystem implementiert

1970-01-01 08:00:00
PHP-Lösung zur Einschränkung mehrerer Übermittlungen derselben IP

2023-03-15 07:38:01
Verwendung regulärer Ausdrücke zur Implementierung der Formularvalidierung in HTML

1970-01-01 08:00:00
Detaillierte Erläuterung dieses Zeigeproblems im strikten JavaScript-Modus

1970-01-01 08:00:00
Beispielcode zum Erstellen eines Baummenüs (einschließlich Menü mit mehreren Ebenen) in Java

1970-01-01 08:00:00
Ausführliche Erläuterung von Beispielen für die Implementierung eines reibungslosen Übergangs durch CSS3 beim Verlassen des Hovers

1970-01-01 08:00:00
Swiper-Karussell-Bildquellcode-Sharing-Analyse

1970-01-01 08:00:00
Fassen Sie VsCode-Plug-Ins zusammen und organisieren Sie sie

1970-01-01 08:00:00
HttpUtils-Anforderungstool-Klassencode

1970-01-01 08:00:00

Aktuelle Ausgaben

So zeigen Sie die mobile Version von Google Chrome an Hallo Lehrer, wie kann ich Google Chrome in eine mobile Version umwandeln?

Aus 2024-04-23 00:22:19

0

9

1588

Aus URL-Parametern erhaltene PHP-Arrays verhalten sich nicht wie erwartet Ich habe einen URL-Parameter, der die Kategorie-ID enthält, und ich möchte ihn als Array w...

Aus 2024-04-06 22:09:02

0

1

1428

Welches Format haben die Variablen im Rückgabewert? Ich bin ein PHP-Neuling. Ich habe einen Code gefunden: if($x<time()){return[false,'erro...

Aus 2024-04-06 21:55:20

0

1

778

Regulärer Ausdruck zum Abgleichen von Wörtern Ich habe ein Skript, in dem ich versuche, neue Jobnamen mit vorhandenen Jobnamen in einer ...

Aus 2024-04-06 21:24:04

0

1

606

Sudoku-Checker funktioniert nicht? Kann mir jemand helfen, den Fehler zu identifizieren? Ich habe alles im Online-Editor versucht, erhalte aber immer noch die Fehlermeldung. Aber ...

Aus 2024-04-06 21:21:07

0

1

474

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage