Nodejs가 대용량 파일을 읽고 쓰는 방법에 대한 간략한 분석-JS 튜토리얼-php.cn

Nodejs가 대용량 파일을 읽고 쓰는 방법에 대한 간략한 분석

저자는 최근 node 측에서 일부 파일 읽기, 쓰기 및 조각화된 업로드 작업을 수행하고 있습니다. 이 과정에서 노드에서 읽은 파일이 2G를 초과하고 최대 읽기 Blob을 초과하는 경우 읽기 예외가 발생합니다. 또한 노드에서 파일을 읽고 쓰는 것도 서버 RAM 제한 등의 영향을 받으며, 발생한 문제와 해결 방법을 기록해 두겠습니다. [추천 관련 튜토리얼: nodejs 동영상 튜토리얼]

노드에서 파일 읽기 및 쓰기

노드 파일 읽기 및 쓰기 RAM 및 Blob 크기 제한

Others

1. 노드에서 파일 읽기 및 쓰기

1.1 일반 파일 읽기 및 쓰기

정기적으로 상대적으로 작은 파일을 읽으려면 다음을 직접 전달할 수 있습니다.

const fs = require('fs')
let data = fs.readFileSync("./test.png")
console.log(data,123)
//输出data = <Buffer 89 50 4e ...>

로그인 후 복사

일반적으로 js/nodejs는 단일이므로 동기화 방법은 그다지 권장되지 않습니다. 스레드 예, 동기화된 메서드는 기본 스레드를 차단합니다. 최신 버전의 노드는 async/await와 함께 직접 사용할 수 있는 fs.promise를 직접 제공합니다.

const fs = require('fs')
const readFileSync = async () => {
    let data = await fs.promises.readFile("./test.png")
    console.log(data,123)
}
readFileSync()
//输出data = <Buffer 89 50 4e ...>

로그인 후 복사

여기서 비동기 메서드 호출은 메인 스레드를 차단하지 않으며 여러 파일 읽기의 IO도 다음에서 수행될 수 있습니다. 평행한.

1.2 스트림 파일 읽기 및 쓰기

기존 파일 읽기 및 쓰기의 경우 파일을 한 번에 메모리로 읽습니다. 이 방법은 시간 효율성이 매우 낮고 시간 효율성이 낮다는 의미입니다. done Once 후속 실행은 초기 읽기가 완료된 후에만 수행할 수 있습니다. 메모리 효율성이 낮다는 것은 파일을 한 번에 읽고 메모리에 넣어야 하므로 많은 메모리를 차지한다는 의미입니다. 따라서 이 경우 일반적으로 Stream을 사용하여 파일을 읽습니다.

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var rs = fs.createReadStream('./test.png');
    rs.on('data', function(chunk) {
        data += chunk;
        console.log(chunk)
     });
    rs.on('end',function(){
        console.log(data);
    });
    rs.on('error', function(err){
        console.log(err.stack);
     });
}
readFileTest()
// data = <Buffer 89 50 64 ...>

로그인 후 복사

Steam을 통해 파일을 읽고 쓰는 것은 메모리 효율성과 시간 효율성을 향상시킬 수 있습니다.

메모리 효율성: 대용량(또는 전체) 데이터를 처리하기 전에 메모리에 로드할 필요가 없습니다.
시간 효율성: 데이터가 있으면 처리를 시작할 수 있으므로 처리 시작 시간이 크게 단축됩니다. 기다리지 않고 데이터 전체 데이터를 로드한 후 처리합니다.

스트림 파일은 두 번째 쓰기 방법도 지원합니다:

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var chunk;
    var rs = fs.createReadStream('./test.png');
    rs.on('readable', function() {
    while ((chunk=rs.read()) != null) {
        data += chunk;
    }});
    rs.on('end', function() {
        console.log(data)
    });
};
readFileTest()

로그인 후 복사

2. 노드 파일 읽기 및 쓰기 RAM 및 Blob 크기의 제한

2.1 기본 문제

대용량 파일을 읽을 때 읽기 파일 크기가 있습니다. 예를 들어 현재 2.5G 비디오 파일을 읽고 있습니다.

const fs = require('fs')
const readFileTest = async () => {
    let data = await fs.promises.readFile("./video.mp4")
    console.log(data)
}
readFileTest()

로그인 후 복사

위 코드를 실행하면 오류가 보고됩니다.

RangeError [ERR_FS_FILE_TOO_LARGE]: 파일 크기(2246121911)가 2GB보다 큽니다

제 생각에는 NODE_OPTIONS='--max-old-space-size=5000' 옵션을 설정하여 현재 5000M>2.5G로 설정했지만 오류는 여전히 사라지지 않았습니다. 이는 파일을 읽는 노드의 크기 제한을 변경할 수 없음을 의미합니다. 옵션을 통해.

위 내용은 대용량 파일을 읽는 일반적인 방법입니다. Steam으로 읽는 경우 파일 크기 제한이 있나요? 예:

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var rs = fs.createReadStream('./video.mp4');
    rs.on('data', function(chunk) {
        data += chunk;
     });
    rs.on('end',function(){
        console.log(data);
    });
    rs.on('error', function(err){
        console.log(err.stack);
     });
}
readFileTest()

로그인 후 복사

위와 같은 방법으로 2.5G 파일을 읽어오면 예외는 없으나 여기서는 오류가 있으니 주의하세요:

data += chunk;
                ^

RangeError: Invalid string length

로그인 후 복사

데이터 길이가 2048M 등 최대 한도를 초과했기 때문입니다. , 등. 따라서 Steam으로 처리할 때 판독 결과를 저장할 때 파일 크기에 주의하세요. 파일 크기는 버퍼의 기본 최대값을 초과하지 않아야 합니다. 위의 경우 모든 데이터를 대용량 데이터로 저장하기 위해 데이터 += 청크가 필요하지 않으며 동시에 읽고 처리할 수 있습니다.

2.2 세그먼트 읽기

파일을 읽는 동안 createReadStream은 실제로 세그먼트 단위로 읽을 수 있습니다. 이 세그먼트 읽기 방법은 대용량 파일을 읽는 대신 사용할 수도 있습니다. 특히 동시에 읽을 때 특정 장점이 있으며 파일 읽기 및 처리 속도를 향상시킬 수 있습니다.

CreateReadStream은 두 번째 매개변수인 {start, end}를 허용합니다. fs.promises.stat를 통해 파일 크기를 얻은 다음 조각을 결정하고 마지막 조각을 한 번에 읽을 수 있습니다. 예를 들어:

Get the file size

const info = await fs.promises.stat(filepath)
   const size = info.size

로그인 후 복사

Fragment into the 지정된 SIZE( 예를 들어 조각당 128M Film)

  const SIZE = 128 * 1024 * 1024
  let sizeLen = Math.floor(size/SIZE)
    let total = sizeLen +1 ;
    for(let i=0;i<=sizeLen;i++){
      if(sizeLen ===i){
        console.log(i*SIZE,size,total,123)
        readStremfunc(i*SIZE,size,total)
      }else{
        console.log(i*SIZE,(i+1)*SIZE,total,456)
        readStremfunc(i*SIZE,(i+1)*SIZE-1,total)
      }
    }
  //分片后【0,128M】,【128M, 256M】...

로그인 후 복사

3. 읽기 기능을 구현합니다

const readStremfunc = () => {
    const readStream =  fs.createReadStream(filepath,{start:start,end:end})
    readStream.setEncoding('binary')
    let data = ''
    readStream.on('data', chunk => {
        data = data + chunk
    })
    readStream.end('data', () => {
      ...
    })
}

로그인 후 복사

fs.createReadStream(filepath,{start,end}), 시작과 끝이 앞쪽에 닫히고 뒤쪽에 닫혀 있다는 점에 주목할 필요가 있습니다. 예를 들어 fs.createReadSteam(filepath,{ start:0,end:1023})은 [0,1023], 총 1024비트를 읽습니다.

3. 기타

3.1 브라우저 측에서 대용량 파일 읽기 및 쓰기 확장

이전에 nodejs에서 대용량 파일을 읽어본 적이 있는데, 브라우저 측에서 대용량 파일을 읽는 데 문제는 없나요?

浏览器在本地读取大文件时，之前有类似FileSaver、StreamSaver等方案，不过在浏览器本身添加了File的规范，使得浏览器本身就默认和优化了Stream的读取。我们不需要做额外的工作，相关的工作：github.com/whatwg/fs。不过不同的版本会有兼容性的问题，我们还是可以通过FileSaver等进行兼容。

3.2 请求静态资源大文件

如果是在浏览器中获取静态资源大文件，一般情况下只需要通过range分配请求即可，一般的CDN加速域名，不管是阿里云还是腾讯云，对于分片请求都支持的很好，我们可以将资源通过cdn加速，然后在浏览器端直接请求cdn加速有的资源。

分片获取cdn静态资源大文件的步骤为，首先通过head请求获取文件大小：

const getHeaderInfo = async (url: string) => {
  const res: any = await axios.head(url + `?${Math.random()}`);
  return res?.headers;
};
const header = getHeaderInfo(source_url)
const size = header['content-length']

로그인 후 복사

我们可以从header中的content-length属性中，获取文件的大小。然后进行分片和分段，最后发起range请求：

const getRangeInfo = async (url: string, start: number, end: number) => {
    const data = await axios({
      method: 'get',
      url,
      headers: {
        range: `bytes=${start}-${end}`,
      },
      responseType: 'blob',
    });
    return data?.data;
  };

로그인 후 복사

在headers中指定 range: bytes=${start}-${end},就可以发起分片请求去获取分段资源，这里的start和end也是前闭后闭的。

更多node相关知识，请访问：nodejs 教程！

위 내용은 Nodejs가 대용량 파일을 읽고 쓰는 방법에 대한 간략한 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!