翻訳者|Li Rui
査読者|Sun Shujuan
保険業界の自然言語処理 (NLP) は、高度なシンボリックを活用しながら、ハイブリッド機械学習/シンボリック アプローチの恩恵を受けてスケーラビリティを向上できます。推論。
データ サイエンス プロジェクトの最大 87% が概念実証から概念実証への移行に失敗していることはよく知られています。言語処理 (NLP) プロジェクトも例外ではありません。彼らは、この空間とその複雑さに必然的に伴ういくつかの困難を克服しなければなりません。
主な問題点は次のとおりです。
レイアウトの複雑さは非常に大きいため、同じ言語概念であっても、文書内のどこに配置されるかによって、その意味や価値が大幅に変わる可能性があります。
簡単な例を見てみましょう: 保険に「テロ」補償が存在するかどうかを識別するエンジンを構築しようとすると、それがどこに配置されているかに関係なく、別の値を割り当てる必要があります:
(1) 宣言ページの一部をサブリミットします。
(2) ポリシーの「除外」セクション。
(3) 1 つ以上の保険裏書きを追加します。
(4) 報道内容に具体的な推奨を追加します。
高品質で適切なサイズの注釈付き保険文書コーパスが不足していることは、このような複雑な文書に注釈を付ける固有の難しさと、数万件の保険契約に注釈を付けるのに必要な労力に直接関係しています。
そして、これは氷山の一角にすぎません。これに加えて、保険の概念を正常化する必要性も考慮する必要があります。
データベースを扱う場合、概念の標準化はよく理解されているプロセスです。これは推論を適用し、アノテーション プロセスの速度を上げるための鍵であるため、保険分野における NLP にとっても重要です。
正規化の概念は、要素を同じタグ言語の下にグループ化することを意味しますが、見た目は大きく異なる場合があります。多くの例がありますが、最も重要なものは自然災害をカバーする保険契約です。
この場合、異なる浸水ゾーンには異なるサブリミットが適用されます。洪水の危険性が最も高い地域は、「高リスク洪水地帯」と呼ばれることがあります。この概念は次のように表現できます。
(1) レベル 1 洪水エリア
(2) 洪水リスクエリア (SFHA)
(3) 洪水エリア A
etc
実際には、どの保険にも、グループ化できる多くの条件が含まれています。特定の地理的エリアとその固有のリスクに応じて、最も重要な自然災害補償には 2 つの段階または階層間の違いがあります。層 (I、II、III)。
これに、見つかる可能性のあるすべての要素を乗算すると、バリエーションの数がすぐに非常に大きくなる可能性があります。これにより、機械学習アノテーターと自然言語処理 (NLP) エンジンの両方が、正しい情報を取得、推論、さらにはラベル付けしようとすると行き詰まってしまいます。
複雑な自然言語処理 (NLP) タスクを解決するより良い方法は、機械学習ベースのクラスタリングを使用するハイブリッド (機械学習/記号) 手法に基づいています。マイクロ言語の導入により、保険ワークフローの結果とライフサイクルが改善され、それがシンボリック エンジンに継承されます。
従来のテキスト クラスタリングは、意味パターンを推測し、同様のトピックや同様の意味を持つ文などを含む文書をグループ化する教師なし学習方法で使用されますが、ハイブリッド方法は大きく異なります。微言語クラスターは、事前定義された正規化値を使用してラベル付きデータでトレーニングされた機械学習アルゴリズムを使用して、粒度レベルで作成されます。マイクロ言語クラスターが推論されると、それをさらなる機械学習アクティビティで使用したり、シンボリック レイヤーに基づいたハイブリッド パイプライン駆動の推論ロジックで使用したりできます。
これは、「問題を分解する」というプログラミングの伝統的な黄金律に沿ったものです。複雑なユースケース (保険業界のほとんどのユースケースと同様) を解決するための最初のステップは、それをより小さく、より使いやすい部分に分割することです。
シンボリック エンジンは、非常に正確であるものの、トレーニング中に見られなかった状況に対処する際の機械学習の柔軟性がないため、スケーラビリティが低いと言われることがよくあります。
ただし、このタイプの言語クラスタリングでは、機械学習を活用して概念を特定し、パイプラインの次のシンボリック エンジンの複雑で正確なロジックに渡すことで、この問題を解決します。
可能性は無限です。たとえば、記号ステップは、概念が属する文書セグメントに基づいて機械学習認識の本質的な価値を変更できます。
ここでは、「セグメンテーション」(テキストを関連する領域に分割する) の表記プロセスを使用して、機械学習モジュールによって渡されたラベルを使用する方法を示す例を示します。
モデルが、100 ページの保険契約から特定の補償範囲が除外されているかどうかを理解する必要があると想像してください。
機械学習エンジンはまず、「芸術」の対象範囲の考えられるすべてのバリエーションをクラスター化します:
これに続いて、パイプラインのシンボル部分は、「除外」セクションに「芸術」タグが記載されているかどうかを確認して、その対象範囲がポリシーから除外されているかどうか、または対象となっているかどうかを確認します。 (サブリミットリストの一部として)。
これのおかげで、機械学習のアノテーターは、ポリシー内での位置に基づいてすべてのアーツ バリアントに異なるラベルを割り当てることを心配する必要はありません。バリアントの「アーツ」の正規化された値にアノテーションを付けるだけで済みます。マイクロ言語クラスターとして機能します。
複雑なタスクのもう 1 つの有用な例は、データの集計です。ハイブリッド エンジンが特定のカバレッジのサブ制限やカバレッジの正規化の問題を抽出するように設計されている場合、処理する複雑な層がさらに 1 つあります。それは、集計に使用される言語項目の順序です。
現在のタスクは、特定のカバレッジのサブリミットだけでなく、その修飾子 (イベントごと、集計など) も抽出することであると考えてください。 3 つのアイテムは、いくつかの異なる順序で並べることができます。
データを集約する際にこれらの順列をすべて利用すると、機械学習モデルの複雑さが大幅に増加する可能性があります。一方、ハイブリッド アプローチでは、機械学習モデルで正規化されたラベルを識別し、機械学習部分からの入力データに基づいて記号推論で正しい順序を識別します。
これらは、標準的な概念を識別するために、スケーラブルな機械学習アルゴリズムに無制限の量の複雑な記号ロジックと推論を適用できることを示す 2 つの例にすぎません。
スケーラビリティに加えて、シンボリック推論はプロジェクト ワークフロー全体に次のような利点をもたらします。
原題: Insurance Policies: Document Clustering Through Hybrid NLP 、著者: Stefano Reitano
以上が自然言語処理を使用して保険書類をクラスタリングするための戦略と方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。