MySQL レーベンシュタイン: 単一クエリによる用語マッチングの簡素化
レーベンシュタイン距離は、2 つの文字列間の類似性の尺度です。スペルチェックやテキスト修正によく使用されます。 MySQL では、これを利用して、効率的な SQL クエリで類似の用語を検索し、面倒な PHP フィルタリングの必要性を排除できます。
次の PHP コード スニペットを考えてみましょう。これは、データベースから用語を取得し、その用語のレーベンシュタイン距離を計算します。指定された入力単語:
$word = strtolower($_GET['term']); $lev = 0; $q = mysql_query("SELECT `term` FROM `words`"); while($r = mysql_fetch_assoc($q)) { $r['term'] = strtolower($r['term']); $lev = levenshtein($word, $r['term']); if($lev >= 0 && $lev < 5) { $word = $r['term']; } }
このコードはデータベース内のすべての用語をループし、各用語のレーベンシュタイン距離を計算します。ただし、このアプローチは、特に大規模なデータセットの場合、非効率的になる可能性があります。
このプロセスを最適化するために、MySQL レーベンシュタイン関数を利用できます。この関数を使用すると、SQL クエリ内で直接レーベンシュタイン距離を計算できるため、PHP ベースのフィルタリングが不要になります。結果は、より効率的で簡潔なクエリになります。
$word = mysql_real_escape_string($word); mysql_qery("SELECT `term` FROM `words` WHERE levenshtein('$word', `term`) BETWEEN 0 AND 4");
このクエリは、入力単語からのレーベンシュタイン距離が 0 ~ 4 の範囲にあるすべての用語を取得し、データベース内で類似した用語を検索するための便利でスケーラブルな方法を提供します。 .
以上がMySQL のレーベンシュタイン関数はどのようにして用語一致クエリを最適化できるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。