教師あり学習と教師なし学習: 専門家がギャップを定義-AI-php.cn

書き直す必要があるのは、教師あり学習、教師なし学習、半教師あり学習の特性と、それらが機械学習プロジェクトにどのように適用されるかを理解することです。

教師あり学習と教師なし学習: 専門家がギャップを定義

##人工知能テクノロジーについて議論するとき、教師あり学習は、通常、人工知能モデル作成の最後のステップであり、画像認識、より良い予測、側面に使用できるため、最も注目を集める方法です。

対照的に、教師なし学習は、AI 開発ライフサイクルの初期段階で舞台裏で機能する傾向があります。多くの場合、教師あり学習の基礎を提供するために使用されます。マネージャーが輝けるようになるための地味な仕事と同じように、魔法は基礎を築くために展開されます。後で説明するように、どちらの機械学習モデルもビジネス上の問題に効果的に適用できます。

技術レベルでは、教師あり学習と教師なし学習の違いは、アルゴリズムの作成に使用される生データが事前にラベル付けされているかどうか (教師あり学習)、またはそうでない (教師なし学習) です。

始めましょう

教師あり学習とは何ですか?

#教師あり学習では、データサイエンティストはラベル付きトレーニングデータをアルゴリズムに提供し、アルゴリズムに関連性を評価してもらいたい変数を定義します。

##アルゴリズムの入力データと出力変数はトレーニングデータを通じて指定されます。たとえば、教師あり学習を使用して画像に猫が含まれているかどうかを判断するアルゴリズムをトレーニングする場合、トレーニングデータで使用される画像ごとにラベルを作成して、画像に猫が含まれているかどうかを示すことができます

教師あり学習の定義で説明しているように、「[A] コンピューターアルゴリズムは、特定の出力用にラベル付けされた入力データでトレーニングされます。モデルは、基礎となるパターンと入力データと入力データ間の関係を検出できるようになるまでトレーニングされます。出力ラベルを使用すると、これまでに見たことのないデータを提示するときに正確なラベル付け結果を生成できます。教師ありアルゴリズムの一般的なタイプには、分類、デシジョンツリー、回帰、予測モデリングが含まれます。これについては、Arcitura Education の機械学習チュートリアルで学習できます。

教師あり機械学習手法は、

パーソナライズドマーケティングなど、さまざまなビジネスアプリケーションで使用されています。

教師なし学習では、この方法に適したアルゴリズム (K 平均法クラスタリングなど) があり、ラベルのないデータをトレーニングします。アルゴリズムはデータセットをスキャンして、データセット内の意味のある関連性を探します。言い換えれば、教師なし学習はパターンを識別します外部の測定値と相関させるのではなく、データ内の類似点を特定します

このアプローチは、探しているものがわからない場合には便利ですが、探しているものがわかっている場合にはあまり役に立ちません。教師なしアルゴリズムに数千または数百万の画像を表示すると、画像のサブセットが人間が猫として識別するものとして分類される可能性があります。対照的に、猫と犬のラベル付きデータで訓練された教師ありアルゴリズムは、高い信頼度を達成でき、正確に判断できます。ただし、このアプローチにはトレードオフが伴います: 教師あり学習プロジェクトでモデルを開発するために何百万ものラベル付き画像が必要な場合、機械生成の予測には多大な人間の労力が必要です。

中間点があります: 半教師あり学習です。

半教師あり学習とは何ですか?

半教師あり学習とは、教師なし学習と教師あり学習の組み合わせ学習を組み合わせる効果的な方法です｡教師なし学習アルゴリズムを使用して､特定のワークフローを通じて自動的にラベルを生成し､そのラベルを教師あり学習アルゴリズムに入力します｡この方法では､人間が手動でいくつかの画像にラベルを付けます｡、教師なし学習中、アルゴリズムは他の画像のラベルを推測し、最終的にすべてのラベルと画像を教師あり学習アルゴリズムに入力して AI モデルを作成します

半教師あり学習の利点の 1 つは次のとおりです。機械学習のコストを削減できるということ予測精度を大幅に向上させるために 2020 タグで大規模なデータセットを使用するコスト

教師あり学習と教師なし学習: 専門家がギャップを定義

#強化学習とは何ですか?

#もう 1 つの機械学習手法は強化学習です。強化学習は通常、一連のステップを完了するように機械に教えるために使用され、教師あり学習や教師なし学習とは異なります。データサイエンティストは、タスクを実行するアルゴリズムをプログラムし、タスクの完了方法を決定する際に肯定的または否定的な合図や補強を与えます。プログラマーは報酬のルールを設定しますが、タスクを完了するために報酬を最大化するために必要な手順はアルゴリズムに決定させます。

教師あり学習と教師なし学習のどちらを使用すべきか?

LinkedIn の機械学習マネージャーである Shivani Rao 氏は、教師ありまたは教師なしの機械学習アプローチを採用するためのベストプラクティスは、多くの場合、環境、データとアプリケーションに関して立てられる仮定に依存すると述べています。。

教師あり機械学習アルゴリズムと教師なし機械学習アルゴリズムのどちらを使用するかの選択も、時間の経過とともに変化するとラオ氏は述べています。モデル構築プロセスの初期段階ではデータにラベルが付けられていないことがよくありますが、モデリングの後の段階ではラベル付きデータが出現する可能性があります。

たとえば、LinkedIn メンバーがコースビデオを視聴するかどうかを予測する問題では、最初のモデルは教師なし手法を使用します。これらの提案が提供されると、誰かがその提案をクリックしたかどうかを記録する指標によって、タグを生成するための新しいデータが提供されます。

LinkedIn では、この手法を使用して、学生が習得したいと思われるスキルにタグを付けることもできます。 . オンラインコース。著者、出版社、学生などの人間のタグ付け者は、コースで教えられるスキルの正確かつ正確なリストを提供できますが、そのようなスキルの完全なリストを提供する可能性は低いです。したがって、これらのデータラベルは不完全であると考えることができます。このようなタイプの問題では、半教師あり手法を使用して、より網羅的なラベルのセットを構築できます。

データサイエンスと高度な分析の専門家であり、コンサルティング会社カーニーのパートナーであるバラストータ氏は、彼のチームは教師あり学習を使用することを選択した、または教師なし学習を行う場合、実践的な要素が考慮されることが多いと述べました。考慮に入れます。

Thota 氏は次のように述べています。「将来の観測を予測または分類するという目的で、利用可能なラベル付きデータがある場合、アプリケーションとして教師あり学習を選択します。利用可能なラベル付きデータがない場合は、「教師なし学習であり、目標はデータからパターンや断片を特定して戦略を開発することです。」カルブ氏は、Alation のデータサイエンティストはさまざまなアプリケーションプログラムで教師なし学習を内部で使用していると述べました。たとえば、彼らは、あいまいなデータオブジェクト名を人間の言語に翻訳するための人間と機械の共同プロセスを開発しました。たとえば、「na_gr_rvnu_ps」を「北米のプロフェッショナルサービスの総収益」に変換します。この場合、機械が推測し、人間が確認し、機械学習が行われます。

#「これは、反復ループでの半教師あり学習と考えることができ、精度が向上するという好循環が生まれます。」カルブ言った。

5 教師なし学習テクニック

高レベルでは、教師あり学習テクニックは線形回帰 (グループデータへのモデルの適合) に焦点を当てる傾向があります。予測を行うためのポイント）や分類問題（画像には猫がいますか?

教師なし学習手法では、教師を補うために元のデータセットをスライスおよびダイシングする複数の方法がよく使用されます。学習はこれらの分野で機能します。

データクラスタリング。

同様の特性を持つデータポイントがグループ化され、データをより効果的に理解して探索できるようになります。たとえば、企業はデータを使用します。人口統計、興味、購買行動、その他の要因に基づいて顧客をグループに分類するクラスタリング手法。

次元削減。データセット内の各変数は次のように扱われます。別の次元です。ただし、多くのモデルは、変数間の特定の関係を分析することでより適切に機能します。次元削減の簡単な例は、収益を 1 つの次元として使用することです。これは、収入から支出を差し引いた 2 つの別の次元を表します。ただし、新しい、より複雑な変数タイプは、主成分分析、オートエンコーダー、テキストをベクトルに変換するアルゴリズム、T 分布確率的近傍埋め込みなどのアルゴリズムを使用して生成できます。次元削減は、モデルが適切に機能する過学習の問題を軽減するのに役立ちます。データセットは小さいですが、新しいデータには一般化できません。この技術を使用すると、企業は 2D または 3D フォームでモデルをモデル化し、人間が容易に理解できる高次元データを視覚化することもできます。 ## 異常または外れ値の検出。

教師なし学習は、通常のデータ分布から外れたデータポイントを特定するのに役立ちます。データ準備ステップとして異常を特定して削除すると、機械学習モデルのパフォーマンスが向上する可能性があります。

転移学習。 これらのアルゴリズムは、関連する異なるタスクでトレーニングされたモデルを利用します。たとえば、転移学習技術を使用すると、ウィキペディアの記事でトレーニングされた分類器を簡単に微調整して、あらゆるタイプの新しいテキストに正しいトピックのラベルを付けることができます。 LinkedIn の Rao 氏は、これがラベルのないデータの問題を解決する最も効果的かつ迅速な方法の 1 つであると述べています。

#グラフベースのアルゴリズム。これらの技術は、データポイント間の関係を捉えるグラフを構築しようとしている、とラオ氏は言いました。たとえば、各データポイントがスキルを持つ LinkedIn メンバーを表す場合、エッジがメンバー間のスキルの重複を表すグラフを使用してメンバーを表すことができます。グラフアルゴリズムは、既知のデータポイントから未知だが密接に関連しているデータポイントにラベルを転送するのにも役立ちます。教師なし学習を使用して、さまざまなタイプのエンティティ (ソースとターゲット) 間のグラフを構築することもできます。エッジが強いほど、ターゲットノードに対するソースノードの親和性が高くなります。たとえば、LinkedIn は、スキルベースのコースを持つメンバーをマッチングするためにこれらを使用します。

以上が教師あり学習と教師なし学習: 専門家がギャップを定義の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。