나만의 언어 만들기: 처음부터 JavaScript 트랜스파일러 구축-JS 튜토리얼-php.cn

Craft Your Own Language: Build a JavaScript Transpiler from Scratch

사용자 정의 언어 변환기를 구축하여 JavaScript에서 컴파일러 구축의 매혹적인 세계를 탐험해 보겠습니다. 이 여정을 통해 우리는 핵심 개념과 실제 구현을 통해 자신만의 프로그래밍 언어를 만들 수 있는 도구를 얻을 수 있습니다.

먼저 트랜스파일러가 무엇인지 이해해야 합니다. 소스 코드를 한 프로그래밍 언어에서 다른 프로그래밍 언어로 변환하는 일종의 컴파일러입니다. 우리의 경우에는 맞춤 언어를 JavaScript로 번역하겠습니다.

트랜스파일러 구축 과정에는 어휘 분석, 구문 분석, 코드 생성 등 여러 주요 단계가 포함됩니다. 어휘 분석부터 시작해 보겠습니다.

어휘 분석 또는 토큰화는 입력 소스 코드를 일련의 토큰으로 분해하는 프로세스입니다. 각 토큰은 키워드, 식별자 또는 연산자와 같은 우리 언어의 의미 있는 단위를 나타냅니다. 다음은 간단한 어휘 분석기 구현입니다.

function lexer(input) {
  const tokens = [];
  let current = 0;

  while (current < input.length) {
    let char = input[current];

    if (char === '(') {
      tokens.push({ type: 'paren', value: '(' });
      current++;
      continue;
    }

    if (char === ')') {
      tokens.push({ type: 'paren', value: ')' });
      current++;
      continue;
    }

    if (/\s/.test(char)) {
      current++;
      continue;
    }

    if (/[0-9]/.test(char)) {
      let value = '';
      while (/[0-9]/.test(char)) {
        value += char;
        char = input[++current];
      }
      tokens.push({ type: 'number', value });
      continue;
    }

    if (/[a-z]/i.test(char)) {
      let value = '';
      while (/[a-z]/i.test(char)) {
        value += char;
        char = input[++current];
      }
      tokens.push({ type: 'name', value });
      continue;
    }

    throw new TypeError('Unknown character: ' + char);
  }

  return tokens;
}

로그인 후 복사

이 어휘분석기는 괄호, 숫자, 이름(식별자)을 인식합니다. 이는 기본적인 구현이지만 좋은 출발점을 제공합니다.

다음으로 구문 분석으로 넘어갑니다. 파서는 어휘분석기가 생성한 토큰 스트림을 가져와 AST(추상 구문 트리)를 구축합니다. AST는 컴파일러가 작업하기 쉬운 방식으로 프로그램의 구조를 나타냅니다. 다음은 간단한 파서입니다.

function parser(tokens) {
  let current = 0;

  function walk() {
    let token = tokens[current];

    if (token.type === 'number') {
      current++;
      return {
        type: 'NumberLiteral',
        value: token.value,
      };
    }

    if (token.type === 'paren' && token.value === '(') {
      token = tokens[++current];

      let node = {
        type: 'CallExpression',
        name: token.value,
        params: [],
      };

      token = tokens[++current];

      while (
        (token.type !== 'paren') ||
        (token.type === 'paren' && token.value !== ')')
      ) {
        node.params.push(walk());
        token = tokens[current];
      }

      current++;

      return node;
    }

    throw new TypeError(token.type);
  }

  let ast = {
    type: 'Program',
    body: [],
  };

  while (current < tokens.length) {
    ast.body.push(walk());
  }

  return ast;
}

로그인 후 복사

이 파서는 함수 호출과 숫자 리터럴을 사용하여 간단한 언어용 AST를 생성합니다. 이는 보다 복잡한 언어를 구축할 수 있는 좋은 기반입니다.

AST를 사용하면 코드 생성으로 넘어갈 수 있습니다. 여기에서 AST를 유효한 JavaScript 코드로 변환합니다. 기본 코드 생성기는 다음과 같습니다.

function codeGenerator(node) {
  switch (node.type) {
    case 'Program':
      return node.body.map(codeGenerator).join('\n');

    case 'ExpressionStatement':
      return codeGenerator(node.expression) + ';';

    case 'CallExpression':
      return (
        codeGenerator(node.callee) +
        '(' +
        node.arguments.map(codeGenerator).join(', ') +
        ')'
      );

    case 'Identifier':
      return node.name;

    case 'NumberLiteral':
      return node.value;

    case 'StringLiteral':
      return '"' + node.value + '"';

    default:
      throw new TypeError(node.type);
  }
}

로그인 후 복사

이 코드 생성기는 AST를 가져와 JavaScript 코드를 생성합니다. 단순화된 버전이지만 기본 원리를 보여줍니다.

이제 이러한 핵심 구성 요소가 있으므로 더 많은 고급 기능에 대해 생각해 볼 수 있습니다. 예를 들어 유형 검사는 많은 프로그래밍 언어에서 매우 중요합니다. AST를 순회하고 호환 가능한 유형에서 작업이 수행되는지 확인하여 기본 유형 검사기를 구현할 수 있습니다.

최적화는 컴파일러 설계의 또 다른 중요한 측면입니다. 상수 폴딩(컴파일 타임에 상수 표현식 평가) 또는 데드 코드 제거(프로그램 출력에 영향을 주지 않는 코드 제거)와 같은 간단한 최적화를 구현할 수 있습니다.

사용자 친화적인 언어를 만들려면 오류 처리가 중요합니다. 컴파일러에 문제가 발생하면 명확하고 유용한 오류 메시지를 제공해야 합니다. 여기에는 어휘 분석 및 구문 분석 중에 줄과 열 번호를 추적하고 오류 메시지에 이 정보를 포함시키는 것이 포함될 수 있습니다.

간단한 사용자 정의 제어 구조를 구현하는 방법을 살펴보겠습니다. 코드 블록을 지정된 횟수만큼 반복하는 '반복' 문을 언어에 추가하고 싶다고 가정해 보겠습니다.

function lexer(input) {
  const tokens = [];
  let current = 0;

  while (current < input.length) {
    let char = input[current];

    if (char === '(') {
      tokens.push({ type: 'paren', value: '(' });
      current++;
      continue;
    }

    if (char === ')') {
      tokens.push({ type: 'paren', value: ')' });
      current++;
      continue;
    }

    if (/\s/.test(char)) {
      current++;
      continue;
    }

    if (/[0-9]/.test(char)) {
      let value = '';
      while (/[0-9]/.test(char)) {
        value += char;
        char = input[++current];
      }
      tokens.push({ type: 'number', value });
      continue;
    }

    if (/[a-z]/i.test(char)) {
      let value = '';
      while (/[a-z]/i.test(char)) {
        value += char;
        char = input[++current];
      }
      tokens.push({ type: 'name', value });
      continue;
    }

    throw new TypeError('Unknown character: ' + char);
  }

  return tokens;
}

로그인 후 복사

이것은 표준 JavaScript로 번역되는 사용자 정의 구성을 사용하여 언어를 확장할 수 있는 방법을 보여줍니다.

소스 매핑은 또 다른 중요한 고려 사항입니다. 이를 통해 생성된 JavaScript를 원래 소스 코드로 다시 매핑할 수 있으며 이는 디버깅에 매우 중요합니다. 코드를 생성할 때 원래 소스 위치를 추적하고 생성된 JavaScript와 함께 소스 맵을 출력하여 이를 구현할 수 있습니다.

트랜스파일러를 빌드 프로세스에 통합하면 개발자 경험이 크게 향상될 수 있습니다. Webpack이나 Rollup과 같은 널리 사용되는 빌드 도구용 플러그인을 만들어 개발자가 프로젝트에서 우리 언어를 원활하게 사용할 수 있도록 할 수 있습니다.

언어를 개발하면서 더 많은 고급 기능을 추가하고 싶을 것입니다. 모듈 시스템을 구현하거나, 객체 지향 프로그래밍에 대한 지원을 추가하거나, 내장 함수의 표준 라이브러리를 생성할 수 있습니다.

이 과정 전체에서 실적을 염두에 두는 것이 중요합니다. 컴파일러 성능은 특히 대규모 프로젝트의 경우 개발자 생산성에 상당한 영향을 미칠 수 있습니다. 우리는 컴파일러를 프로파일링하고 가장 시간이 많이 걸리는 부분을 최적화해야 합니다.

트랜스파일러 구축은 복잡하지만 보람 있는 과정입니다. 이는 프로그래밍 언어가 내부적으로 어떻게 작동하는지에 대한 깊은 이해를 제공하고 코드에서 아이디어를 표현하는 방식을 형성할 수 있게 해줍니다. 특정 문제 도메인에 대한 도메인별 언어를 만들거나 새로운 언어 기능을 실험할 때 여기서 배운 기술은 가능성의 세계를 열어줍니다.

배우는 가장 좋은 방법은 직접 해보는 것임을 기억하세요. 간단한 계산기 언어로 작게 시작하고 개념에 익숙해지면 점차적으로 더 많은 기능을 추가하세요. 실험과 실수를 두려워하지 마세요. 이것이 우리가 개발자로서 배우고 성장하는 방법입니다.

결론적으로 JavaScript의 컴파일러 구성은 우리의 필요에 맞는 사용자 정의 언어를 만들 수 있는 강력한 도구입니다. 어휘 분석, 구문 분석 및 코드 생성의 원리를 이해함으로써 코드 문제에 대해 생각하고 해결하는 새로운 방식을 여는 트랜스파일러를 구축할 수 있습니다. 그러니 마음껏 창조해 보세요. 유일한 한계는 여러분의 상상력입니다!