新しい言語モデルを評価するには多くの方法があり、その中には人間の専門家による評価に基づくものや、自動化された評価に基づくものもあります。これらの方法にはそれぞれ長所と短所があります。この記事では、自動評価に基づいたパープレキシティ手法に焦点を当てます。
Perplexity は、言語モデルの品質を評価するために使用される指標です。これは、一連のデータが与えられた場合の言語モデルの予測力を測定します。混乱の値が小さいほど、モデルの予測能力が高くなります。このメトリックは、自然言語処理モデルを評価し、特定のテキスト内の次の単語を予測するモデルの能力を測定するためによく使用されます。パープレキシティが低いほど、モデルのパフォーマンスが向上していることを示します。
自然言語処理における言語モデルの目的は、シーケンス内の次の単語の確率を予測することです。単語のシーケンス w_1,w_2,…,w_n が与えられた場合、言語モデルの目標は、シーケンスの同時確率 P(w_1,w_2,…,w_n) を計算することです。連鎖ルールを使用すると、結合確率を条件付き確率の積に分解できます: P(w_1,w_2,…,w_n)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)…P( w_n| w_1,w_2,…,w_{n-1})
パープレキシティは、条件付き確率を計算するために使用される指標であり、モデルを使用して予測された確率分布のエントロピーを測定します。パープレキシティは次のように計算されます。テスト データ セット D が与えられた場合、パープレキシティは次のように定義できます perplexity(D)=\sqrt[N]{\prod_{i=1}^{N}\frac{1}{P( w_i |w_1,w_2,…,w_{i-1})}}。このうち、N はテストデータセット D の単語数を表し、P(w_i|w_1,w_2,...,w_{i-1}) は、最初の i- が実行されたときの i 番目の単語の予測を表します。 1 つの単語がわかっています。確率。混乱が少ないほど、モデルはテスト データをより適切に予測します。
このうち、N はデータセット D の総単語数を表します。 P(w_i|w_1,w_2,…,w_{i-1}) は、最初の i-1 単語から i 番目の単語を予測するモデルの条件付き確率です。混乱の値が小さいほど、モデルの予測能力が強くなります。
困惑の原理は、情報エントロピーの概念に基づいています。情報エントロピーは、確率変数の不確実性の尺度です。これは、離散確率変数 X について、エントロピーが次のように定義されることを意味します: H(X)=-\sum_{x}P(x)\log P(x)
このうち、P(x) は確率変数 X が値 x をとる確率です。エントロピーが大きいほど、確率変数の不確実性が高くなります。
言語モデルでは、パープレキシティの計算は、指定されたテスト データ セット D 内の各単語の条件付き確率のエントロピー合計の平均に変換できます。混乱の値が小さいほど、モデルによって予測される確率分布が真の確率分布に近くなり、モデルのパフォーマンスが向上します。
パープレキシティを計算するときは、トレーニングされた言語モデルを使用して、テスト データ セット内の各文字を比較する必要があります。単語の条件付き確率を予測します。具体的には、次の手順を使用してパープレキシティを計算できます。
テスト データ セット内の各単語について、トレーニング済みの言語モデルを使用してその条件付き確率 P(w_i|w_1, w_2,…,w_{i-1})。
確率の積が確率の合計になった後のアンダーフローやエラーを避けるために、各単語の条件付き確率の対数を取得します。計算式は次のとおりです:\log P(w_i|w_1,w_2,…,w_{i-1})
各単語の条件付き確率の負の対数を加算して、Test を取得します。データセットの複雑さ。計算式は次のとおりです: perplexity(D)=\exp\left{-\frac{1}{N}\sum_{i=1}^{N}\log P(w_i|w_1,w_2,…,w_{i - 1})\right}
困惑度の計算にはトレーニングされた言語モデルを使用する必要があるため、実装中に最初に言語モデルをトレーニングする必要があります。 N-gram モデル、ニューラル ネットワーク言語モデルなど、言語モデルをトレーニングする方法は数多くあります。トレーニング中に、モデルが単語間の関係と確率分布を学習できるように、大規模なテキスト コーパスを使用する必要があります。
一般に、複雑さは、言語モデルの品質を評価するためによく使用される指標です。言語モデルの予測力は、テスト データ セット内の各単語の条件付き確率のエントロピー値の合計を平均することによって評価できます。混乱が小さいほど、モデルによって予測される確率分布は真の確率分布に近くなり、モデルのパフォーマンスは向上します。
以上が一般的な方法: 新しい言語モデルの複雑さを測定するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。