지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 운영 및 유지보수 > 리눅스 운영 및 유지 관리 > 대용량 파일의 정렬 및 중복 제거를 간단하게 구현

대용량 파일의 정렬 및 중복 제거를 간단하게 구현

巴扎黑

풀어 주다： 2017-09-04 14:28:59

원래의

4336명이 탐색했습니다.

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

로그인 후 복사

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

위 내용은 대용량 파일의 정렬 및 중복 제거를 간단하게 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

성취하다 단순한

원천：php.cn

이전 기사：CentOS에서 FTP 서버 구축 다음 기사：너무 많은 파일을 삭제하고 Linux의 셸에 의해 제한되는 문제를 해결하는 매우 간단한 방법

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

PHP 배열에 요소를 추가하는 방법

2023-03-14 15:58:02
간단한 객관식 평가 시스템을 구현하는 JS를 보여주는 예

1970-01-01 08:00:00
동일한 IP의 여러 제출을 제한하는 PHP 솔루션

2023-03-15 07:38:01
정규식을 사용하여 HTML에서 양식 유효성 검사 구현

1970-01-01 08:00:00
JavaScript 엄격 모드의 포인팅 문제에 대한 자세한 설명

1970-01-01 08:00:00
Java로 트리 메뉴(다단계 메뉴 포함)를 작성하기 위한 예제 코드

1970-01-01 08:00:00
마우스 오버 시 부드러운 전환을 구현하는 CSS3의 예에 대한 자세한 설명

1970-01-01 08:00:00
Swiper 캐러셀 이미지 소스코드 공유 분석

1970-01-01 08:00:00
VsCode 플러그인 요약 및 구성

1970-01-01 08:00:00
HttpUtils 요청 도구 클래스 코드

1970-01-01 08:00:00

최신 이슈

Chrome 모바일 버전을 표시하는 방법 안녕하세요 선생님, Chrome을 모바일 버전으로 어떻게 변경하나요?

에서 2024-04-23 00:22:19

0

9

1588

URL 매개변수에서 얻은 PHP 배열이 예상대로 작동하지 않습니다. 카테고리 ID가 포함된 URL 매개변수가 있고 이를 다음과 같은 배열로 처리하려고 합니다. http://example.com?cat[]=3,9,13 PHP에서는 ...

에서 2024-04-06 22:09:02

0

1

1428

반환 값의 변수 형식은 무엇입니까? 저는 PHP를 처음 배우는 사람입니다. 코드 조각을 찾았습니다: if($x<time()){return[false,'error'];} 논리나 변수는 중요하지 ...

에서 2024-04-06 21:55:20

0

1

778

단어와 일치하는 정규식 새 작업 이름을 데이터베이스의 기존 작업 이름과 일치시키려는 스크립트가 있습니다. SELECTa.titleASJobTitle,j.DescriptionASMatch...

에서 2024-04-06 21:24:04

0

1

606

스도쿠 검사기가 작동하지 않나요? 오류를 식별하는 데 도움을 줄 수 있는 사람이 있나요? 온라인 편집기에서 모든 것을 시도했지만 여전히 오류가 발생합니다. 하지만 내 컴퓨터의 VSCode에서 이 작업을 수행하면 제대로 작동합니다. 혼란스러워서 버그를 ...

에서 2024-04-06 21:21:07

0

1

474

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿