調査会社 IDC が 2020 年 6 月に発表した調査報告書では、人工知能計画の約 28% が失敗したことが示されました。報告書ではその理由として、専門知識の欠如、関連データの欠如、十分に統合された開発環境の欠如などが挙げられている。機械学習を継続的に改善するプロセスを確立し、行き詰まりを避けるために、現在、重要業績評価指標 (KPI) を特定することが優先事項になっています。
#業界の上層部では、データ サイエンティストがモデルの技術的なパフォーマンス指標を定義できます。これらは、使用されるアルゴリズムの種類によって異なります。たとえば、誰かの身長を年齢の関数として予測することを目的とした回帰の場合、線形決定係数に頼ることができます。
予測の品質を測定する方程式を使用できます。相関係数の二乗がゼロの場合、回帰直線によって 0% 点の分布が決定されます。一方、係数が 100% の場合、数値は 1 に等しくなります。したがって、これは予測の品質が非常に良いことを示しています。
回帰を評価するためのもう 1 つの指標は、損失関数を指す最小二乗法です。これには、実際の値と予測線の間の偏差の二乗和を計算して誤差を定量化し、二乗誤差を最小化することでモデルをフィッティングすることが含まれます。同じロジックで、偏差の基本値の平均を計算する平均絶対誤差法を利用できます。
フランスのコンサルティング会社キャップジェミニで戦略、データ、人工知能サービスを担当するシャルロット・ピエロ・ペルレス氏は、「いずれにせよ、これは私たちが予測しようとしているものとのギャップを測定することに等しい」と結論付けた。
##たとえば、スパム検出の分類アルゴリズムでは、スパムの偽陽性と偽陰性を探す必要があります。 Pierron Perlès 氏は次のように説明します。「たとえば、私たちは生産ラインの効率を最適化する化粧品グループ向けの機械学習ソリューションを開発しました。目的は、生産中断の原因となる可能性のある欠陥のある化粧品を生産ラインの開始時に特定することでした。私たちは緊密に連携しました。工場オペレーターとの議論は、たとえ偽陽性を検出することを意味する場合でも、検出を完了するためのモデルを求めて行われました。つまり、適格な化粧品が不良品と間違われる可能性があります。」偽陽性と偽陰性をベースにしたコンセプト他の 3 つの指標により、分類モデルの評価が可能になります。 (1) 再現率 (R) は、モデルの感度の尺度を指します。これは、検出されるべきすべての真陽性者 (コロナウイルス検査陽性とコロナウイルス検査陰性は実際には陽性でした) に対する、正しく特定された真陽性者 (コロナウイルス検査陽性を例として挙げます) の比率です: R = 真陽性 / 真陽性偽陰性。 (2) 精度 (P) は精度の尺度を指します。これは、陽性と判定されたすべての結果(新型コロナウイルス感染症検査陽性、新型コロナウイルス検査陰性)に対する正確な真陽性(新型コロナウイルス感染症検査陽性)の比率です:P = 真陽性 / 真陽性、偽陽性。 (3) 調和平均 (F スコア) は、正しい予測を与え、他の予測を拒否するモデルの能力を測定します: F=2×精度×再現率/精度-再現率 モデルのプロモーションフランス ESNKeyrus 社のチーフ シニア データ サイエンティストである DavidTsangHinSun 氏は、次のように強調しました。「モデルが構築されると、その一般化能力が重要な指標になります。」それでは、どのように推定するのでしょうか?予測と期待される結果の差異を測定し、その差異が時間の経過とともにどのように変化するかを理解することによって。彼は次のように説明しています。「一定期間が経過すると、発散が発生する可能性があります。これは、データセットの質と量の点でのトレーニングが不十分で、過小学習 (または過剰学習) が原因である可能性があります。」 それで、ソリューション?たとえば、画像認識モデルの場合、敵対的生成ネットワークを使用して、回転や歪みを通じて学習する画像の数を増やすことができます。もう 1 つの手法 (分類アルゴリズムに適用可能): 合成少数派オーバーサンプリング。これは、オーバーサンプリングを通じてデータ セット内の出現頻度の低い例の数を増やすことで構成されます。 意見の相違は、過剰学習の場合にも発生する可能性があります。この構成では、モデルはトレーニング後に予想される相関関係に制限されませんが、過度の特殊化により、フィールド データによって生成されたノイズが取り込まれ、一貫性のない結果が生成されます。 DavidTsangHinSun 氏は、「トレーニング データ セットの品質をチェックし、場合によっては変数の重みを調整する必要がある。」と指摘しました。一方、経済的な重要業績評価指標 (KPI) は残ります。フランスのコンサルティング会社 AIBuilders の CEO であるステファン・ローダー氏は、「エラー率がビジネス上の課題と一致しているかどうかを自問する必要があります。たとえば、保険会社レモネードは、顧客の要求に 3 時間以内に応答できる機械学習モジュールを開発しました。」請求を提出してから数分で、顧客に保険金を支払うための情報 (写真を含む) 節約を考慮すると、一定のエラー率によりコストが発生します。モデルのライフサイクル全体にわたって、特に総所有コストと比較して ( TCO)、開発から保守まで、この測定値を確認することは非常に重要です。"同じ企業内であっても、期待される主要業績評価指標 (KPI) は異なる場合があります。キャップジェミニのシャルロット・ピエールロン・ペルレス氏は、「私たちは、国際的な地位を誇るフランスの小売業者のために消費予測エンジンを開発しました。その結果、モデルの正確なターゲット設定は、デパートで販売される商品と新商品とでは異なることが判明しました。後者の売上のダイナミクスは依存しています」と述べています。特に市場の反応に関連する要因は、定義上制御が困難です。」
最後の主要業績評価指標は導入レベルです。シャルロット・ピエロ・ペルレス氏は、「たとえモデルが高品質であっても、それだけでは十分ではありません。そのためには、ビジネスに使用でき、機械の可能性を実現できる、ユーザー指向のエクスペリエンスを備えた人工知能製品の開発が必要です」と述べました。
Stéphane Roder 氏は次のように結論付けています。「このユーザー エクスペリエンスにより、ユーザーはフィードバックを提供することもでき、日常の運用データ フロー以外の人工知能の知識を提供するのに役立ちます。」
以上が人工知能プロジェクトの成功を測定するためにどのような KPI を使用できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。