如何讓這個正規表示式簡化？

Question

P粉663883862 · Answer

簡單地迭代所有字串並過濾掉所有不包含所有關鍵字的字串：

（可以在下面的程式碼片段中找到更簡潔的版本）

function findMatch(strings, keywords) {
  const result = [];
  
  for (const string of strings) {
    if (keywords.every(keyword => string.includes(keyword))) {
      result.push(string);
    }
  }
  
  return result;
}

嘗試一下：

console.config({ maximize: true });

function findMatch(strings, keywords) {
  return strings.filter(
    string => keywords.every(keyword => string.includes(keyword))
  );
}

const testcases = [
  'WORD1WORD2WORD3',
  'WORD1AWORD2BWORD3C',
  'WORD3WORD1WORD2',
  'WORD1WORD2WORD3WORD1',
  'WORD1WORD1WORD2',
  'WORD1AWORD1BWORD2C'
];

const keywords = [
  'WORD1', 'WORD2', 'WORD3'
];

console.log(findMatch(testcases, keywords));

P粉998100648 · Answer

您可以對每個單字使用正向前瞻。

/(?=.*WORD1)(?=.*WORD2)(?=.*WORD3).*/

下面的更高效能版本指定起始錨點，並且在驗證前瞻後僅符合單一字元。根據OP的要求，此技術僅適用於matching，而不適用於extraction。

/^(?=.*WORD1)(?=.*WORD2)(?=.*WORD3)./

正向先行就像一個門，只有當括號內指定的匹配存在時，它才會繼續，但它不會消耗或捕獲它匹配的內容——它總是零長度。如果您「向前看」以查看每個單字前面是否存在 .*，那麼這些單字的順序並不重要。如果每個單字為真，則繼續進行，而不會使用任何內容進行配對。 p>

如果您只關心內容是否匹配，那麼兩個表達式之間唯一的實質差異就是它們花費的時間。假設您的內容中只有 3 個必需單字中的 2 個。除非解釋表達式的軟體能夠識別嘗試是徒勞的，否則它可能會在第一個位置查找三個單字“失敗”，然後在第二個位置嘗試“失敗”，等等，直到到達最後一個位置才放棄。透過指定^，只會在第一個位置進行檢查，節省了其他不必要檢查的時間。當您只是尋找內容中是否存在所有單字的真/假答案時，從末尾刪除 * 可以防止一些不必要的捕獲。