自然言語処理を使用して保険書類をクラスタリングするための戦略と方法-AI-php.cn

翻訳者|Li Rui

査読者|Sun Shujuan

保険業界の自然言語処理 (NLP) は、高度なシンボリックを活用しながら、ハイブリッド機械学習/シンボリックアプローチの恩恵を受けてスケーラビリティを向上できます。推論。

自然言語処理を使用して保険書類をクラスタリングするための戦略と方法

保険文書と保険契約: 複雑な使用例

データサイエンスプロジェクトの最大 87% が概念実証から概念実証への移行に失敗していることはよく知られています。言語処理 (NLP) プロジェクトも例外ではありません。彼らは、この空間とその複雑さに必然的に伴ういくつかの困難を克服しなければなりません。

主な問題点は次のとおりです。

保険関連書類の複雑なレイアウト。
関連する注釈を備えた大規模なコーパスが不足しています。

レイアウトの複雑さは非常に大きいため、同じ言語概念であっても、文書内のどこに配置されるかによって、その意味や価値が大幅に変わる可能性があります。

簡単な例を見てみましょう: 保険に「テロ」補償が存在するかどうかを識別するエンジンを構築しようとすると、それがどこに配置されているかに関係なく、別の値を割り当てる必要があります:

(1) 宣言ページの一部をサブリミットします。

(2) ポリシーの「除外」セクション。

(3) 1 つ以上の保険裏書きを追加します。

(4) 報道内容に具体的な推奨を追加します。

高品質で適切なサイズの注釈付き保険文書コーパスが不足していることは、このような複雑な文書に注釈を付ける固有の難しさと、数万件の保険契約に注釈を付けるのに必要な労力に直接関係しています。

そして、これは氷山の一角にすぎません。これに加えて、保険の概念を正常化する必要性も考慮する必要があります。

言語の標準化: 保険用語における目には見えない強力な力

データベースを扱う場合、概念の標準化はよく理解されているプロセスです。これは推論を適用し、アノテーションプロセスの速度を上げるための鍵であるため、保険分野における NLP にとっても重要です。

正規化の概念は、要素を同じタグ言語の下にグループ化することを意味しますが、見た目は大きく異なる場合があります。多くの例がありますが、最も重要なものは自然災害をカバーする保険契約です。

この場合、異なる浸水ゾーンには異なるサブリミットが適用されます。洪水の危険性が最も高い地域は、「高リスク洪水地帯」と呼ばれることがあります。この概念は次のように表現できます。

(1) レベル 1 洪水エリア

(2) 洪水リスクエリア (SFHA)

(3) 洪水エリア A

etc

実際には、どの保険にも、グループ化できる多くの条件が含まれています。特定の地理的エリアとその固有のリスクに応じて、最も重要な自然災害補償には 2 つの段階または階層間の違いがあります。層 (I、II、III)。

これに、見つかる可能性のあるすべての要素を乗算すると、バリエーションの数がすぐに非常に大きくなる可能性があります。これにより、機械学習アノテーターと自然言語処理 (NLP) エンジンの両方が、正しい情報を取得、推論、さらにはラベル付けしようとすると行き詰まってしまいます。

新しい言語クラスタリング: ハイブリッドアプローチ

複雑な自然言語処理 (NLP) タスクを解決するより良い方法は、機械学習ベースのクラスタリングを使用するハイブリッド (機械学習/記号) 手法に基づいています。マイクロ言語の導入により、保険ワークフローの結果とライフサイクルが改善され、それがシンボリックエンジンに継承されます。

従来のテキストクラスタリングは、意味パターンを推測し、同様のトピックや同様の意味を持つ文などを含む文書をグループ化する教師なし学習方法で使用されますが、ハイブリッド方法は大きく異なります。微言語クラスターは、事前定義された正規化値を使用してラベル付きデータでトレーニングされた機械学習アルゴリズムを使用して、粒度レベルで作成されます。マイクロ言語クラスターが推論されると、それをさらなる機械学習アクティビティで使用したり、シンボリックレイヤーに基づいたハイブリッドパイプライン駆動の推論ロジックで使用したりできます。

これは、「問題を分解する」というプログラミングの伝統的な黄金律に沿ったものです。複雑なユースケース (保険業界のほとんどのユースケースと同様) を解決するための最初のステップは、それをより小さく、より使いやすい部分に分割することです。

混合言語クラスタリングはどのようなタスクを実行できますか?また、そのスケーラビリティはどのようなものですか?

シンボリックエンジンは、非常に正確であるものの、トレーニング中に見られなかった状況に対処する際の機械学習の柔軟性がないため、スケーラビリティが低いと言われることがよくあります。

ただし、このタイプの言語クラスタリングでは、機械学習を活用して概念を特定し、パイプラインの次のシンボリックエンジンの複雑で正確なロジックに渡すことで、この問題を解決します。

可能性は無限です。たとえば、記号ステップは、概念が属する文書セグメントに基づいて機械学習認識の本質的な価値を変更できます。

ここでは、「セグメンテーション」(テキストを関連する領域に分割する) の表記プロセスを使用して、機械学習モジュールによって渡されたラベルを使用する方法を示す例を示します。

モデルが、100 ページの保険契約から特定の補償範囲が除外されているかどうかを理解する必要があると想像してください。

機械学習エンジンはまず、「芸術」の対象範囲の考えられるすべてのバリエーションをクラスター化します:

「美術」
「芸術作品」
「アートアイテム」
「ジュエリー」
など。

これに続いて、パイプラインのシンボル部分は、「除外」セクションに「芸術」タグが記載されているかどうかを確認して、その対象範囲がポリシーから除外されているかどうか、または対象となっているかどうかを確認します。 (サブリミットリストの一部として)。

これのおかげで、機械学習のアノテーターは、ポリシー内での位置に基づいてすべてのアーツバリアントに異なるラベルを割り当てることを心配する必要はありません。バリアントの「アーツ」の正規化された値にアノテーションを付けるだけで済みます。マイクロ言語クラスターとして機能します。

複雑なタスクのもう 1 つの有用な例は、データの集計です。ハイブリッドエンジンが特定のカバレッジのサブ制限やカバレッジの正規化の問題を抽出するように設計されている場合、処理する複雑な層がさらに 1 つあります。それは、集計に使用される言語項目の順序です。

現在のタスクは、特定のカバレッジのサブリミットだけでなく、その修飾子 (イベントごと、集計など) も抽出することであると考えてください。 3 つのアイテムは、いくつかの異なる順序で並べることができます。

アイテムあたり $100,000 の美術品
アイテムあたり $100,000
アイテムあたり $100,000 の美術品
$100,000 Fine Arts
Fine Arts $100,000

データを集約する際にこれらの順列をすべて利用すると、機械学習モデルの複雑さが大幅に増加する可能性があります。一方、ハイブリッドアプローチでは、機械学習モデルで正規化されたラベルを識別し、機械学習部分からの入力データに基づいて記号推論で正しい順序を識別します。

これらは、標準的な概念を識別するために、スケーラブルな機械学習アルゴリズムに無制限の量の複雑な記号ロジックと推論を適用できることを示す 2 つの例にすぎません。

構築と保守が容易なスケーラブルなワークフロー

スケーラビリティに加えて、シンボリック推論はプロジェクトワークフロー全体に次のような利点をもたらします。

さまざまな実装を行う代わりに、複雑なタスクの機械学習ワークフローでは、さまざまなタグを実装して維持する必要があります。さらに、単一の機械学習モデルを再トレーニングする方が、複数のモデルを再トレーニングするよりも高速で、消費するリソースが少なくなります。
ビジネスロジックの複雑な部分は記号的に処理されるため、データアノテーターが機械学習パイプラインにヒューマンアノテーションを追加するのがはるかに簡単になります。
上記と同じ理由により、テスト担当者が機械学習の標準化プロセスに直接フィードバックを提供することも容易になります。さらに、ワークフローの機械学習部分が言語要素を正規化するため、ユーザーがドキュメントにラベルを付けるためのタグのリストが少なくなります。
シンボルルールは頻繁に更新する必要はありません。頻繁に更新されるのは機械学習部分であり、ユーザーのフィードバックからも恩恵を受けます。

結論

保険分野の複雑なプロジェクトにおける機械学習は、推論ロジックを単純なタグに圧縮することが難しいため、苦しむ可能性があります。これにより、アノテーターの作業もより困難になります。。
テキストの位置と推論により、同じ言語形式でも概念の実際の意味が劇的に変わる可能性があります。
純粋な機械学習ワークフローでは、ロジックが複雑になればなるほど、実稼働レベルの精度を達成するためにより多くのトレーニングドキュメントが必要になります。
このため、機械学習では効果的なモデルを構築するために、事前にラベル付けされた数千 (または数万) のドキュメントが必要になります。
ハイブリッドアプローチを採用することで複雑さが軽減されます。機械学習とユーザーアノテーションによって言語クラスター/タグが作成され、これらはシンボリックエンジンが目標を達成するための開始点または構成要素として使用されます。
ユーザーフィードバックは、検証されると、最も詳細な部分 (ワークフローのシンボリック部分で処理できます) を変更することなく、モデルを再トレーニングするために使用できます。

原題: Insurance Policies: Document Clustering Through Hybrid NLP 、著者: Stefano Reitano

以上が自然言語処理を使用して保険書類をクラスタリングするための戦略と方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。