Java에서 대용량 데이터 파일의 줄 수 계산
대량 데이터 파일의 줄 수를 계산하는 것은 어려운 작업일 수 있습니다. 파일을 한 줄씩 반복하는 것이 일반적인 접근 방식이지만 시간이 많이 걸리고 비효율적입니다.
더 효율적인 대안은 다음과 같은 최적화된 방법을 활용하는 것입니다.
public static int countLines(String filename) throws IOException { InputStream is = new BufferedInputStream(new FileInputStream(filename)); try { byte[] c = new byte[1024]; int count = 0; int readChars = 0; boolean empty = true; while ((readChars = is.read(c)) != -1) { empty = false; for (int i = 0; i < readChars; ++i) { if (c[i] == '\n') { ++count; } } } return (count == 0 && !empty) ? 1 : count; } finally { is.close(); } } public static int countLinesNew(String filename) throws IOException { InputStream is = new BufferedInputStream(new FileInputStream(filename)); try { byte[] c = new byte[1024]; int readChars = is.read(c); if (readChars == -1) { // bail out if nothing to read return 0; } // make it easy for the optimizer to tune this loop int count = 0; while (readChars == 1024) { for (int i = 0; i < 1024;) { if (c[i++] == '\n') { ++count; } } readChars = is.read(c); } // count remaining characters while (readChars != -1) { for (int i = 0; i < readChars; ++i) { if (c[i] == '\n') { ++count; } } readChars = is.read(c); } return count == 0 ? 1 : count; } finally { is.close(); } }
이 방법은 파일을 1024바이트 단위로 읽으므로 한 줄씩 읽는 것에 비해 파일 시스템 액세스 횟수가 크게 줄어듭니다. 각 청크에서 발생하는 줄 수를 유지하고 총 개수를 누적합니다.
벤치마크에 따르면 이 방법은 LineNumberReader를 사용하는 것보다 훨씬 빠릅니다. 1.3GB 텍스트 파일의 경우 최적화된 방법은 줄 수를 계산하는 데 약 0.35초가 걸리는 반면, LineNumberReader는 약 2.40초가 걸립니다.
위 내용은 대용량 Java 데이터 파일의 줄 수를 효율적으로 계산하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!