目次
1. 58ポートレートプラットフォーム建設の背景
1. 従来のプロファイリング プラットフォーム
2. 58 ミドルプラットフォームのポートレート構築の背景
3. ビエンチャン
2. 58ユーザーポートレートプラットフォームの構築におけるアルゴリズムの役割
1. タグシステムの構築
2. アルゴリズムタグの例
3. コンテンツ設定タグを例としてラベル付けプロセスを説明します
3. 58のポートレートプラットフォームアプリケーションケース
1. パーソナライズされたリソースの配置
2. パーソナライズされたプッシュ
3. 検索の推奨事項
4. 展望と概要
ホームページ テクノロジー周辺機器 AI 58 ポートレート プラットフォームの構築におけるアルゴリズムの適用

58 ポートレート プラットフォームの構築におけるアルゴリズムの適用

May 09, 2024 am 09:01 AM
apache ビッグデータ アルゴリズム 地理上の位置 ユーザーポートレートプラットフォーム

算法在 58 画像平台建设中的应用

1. 58ポートレートプラットフォーム建設の背景

まず、58ポートレートプラットフォーム建設の背景を共有させていただきます。

1. 従来のプロファイリング プラットフォーム

算法在 58 画像平台建设中的应用

ユーザー プロファイリング プラットフォームを構築するには、データ ウェアハウスのモデリング機能に依存し、複数行のデータを統合し、正確なデータ マイニングを構築する必要があります。また、ユーザーの行動、興味、ニーズを理解し、アルゴリズム側の機能を提供することも必要です。最後に、ユーザーのポートレート データを効率的に保存、クエリ、共有し、ポートレート サービスを提供するデータ プラットフォーム機能も必要です。自社構築のビジネス プロファイリング プラットフォームとミドルオフィス プロファイリング プラットフォームの主な違いは、自社構築のプロファイリング プラットフォームは単一のビジネス ラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィス プラットフォームは複数のビジネス ラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。

2. 58 ミドルプラットフォームのポートレート構築の背景

算法在 58 画像平台建设中的应用

58 ユーザーのポートレートプラットフォームの構築は主に次のビジネスニーズによるものです:

  • パーソナライズされた推奨事項: ビジネス側が作成する必要があります。ユーザーのポートレートに基づく数千人の人々 コンテンツ配信の何千もの側面。
  • 洗練された操作:製品の操作には、さまざまな人々のグループに対してより洗練された操作活動を実行するために、群衆の洞察や群衆の選択などの機能を提供するポートレートプラットフォームが必要です。
  • ユーザー価値の増加: トラフィックの大幅な増加は過ぎ去り、ポートレート プラットフォームを使用して既存のユーザーの価値を高めることが急務となっています。

3. ビエンチャン

算法在 58 画像平台建设中的应用

現在のビジネスニーズと外部環境の課題を解決するために、私たちは一連のユーザーポートレートプラットフォームソリューションであるUA+CDP+MAを提案しました。 OneID サービスを使用して、基本的なユーザー ポートレート データを構築し、トラフィックと群衆の洞察を組み合わせ、アルゴリズムを使用して群衆をインテリジェントに生成し、マテリアルを照合して正確なマーケティングを実現します。同時に、効果を監視し、データをリサイクルして戦略を最適化し、群衆を反復します。ビジネス関係者が正確な運営とビジネスの成長を達成できるように、インテリジェントな成長ソリューションを提供します。

2. 58ユーザーポートレートプラットフォームの構築におけるアルゴリズムの役割

算法在 58 画像平台建设中的应用

58ユーザーポートレートプラットフォームのアルゴリズム側の構築には主に2つの側面が含まれます。ラベル システム、もう 1 つはプラットフォーム機能の構築です。

1. タグシステムの構築

Wanxiang タグシステムには、社会的属性、地理的位置、行動習慣、嗜好属性、ユーザー層別などの複数のカテゴリが含まれており、合計 1,500 を超えるタグが含まれています。生産方法に応じて 2 つのタイプに分けられます:

  • 事実タグ: Shucang の学生は統計やルールを使用して、SQL などを通じて開発および生産します。
  • アルゴリズムタグ: アルゴリズムチームは、データマイニングなどの手段を通じて処理および生成します。

2. アルゴリズムタグの例

算法在 58 画像平台建设中的应用

アルゴリズムタグは、データソースと粒度に従って分類できます。たとえば、性別、年齢、ビジネス傾向などのラベルの場合、データ ソースは通常、分類タスクとして処理される構造化データであり、モデルには XGBoost、DeepFM などが使用されます。ユーザーが閲覧する投稿のテキストからユーザーの目的を特定する必要があるレンタル目的タグもあります。このタイプのタグのデータ ソースは非構造化データであり、テキスト分類やその他の方法を使用して処理できます。コンテンツ設定タグで、ユーザーがさまざまなビジネスの上位 N 件の投稿を好む場合、そのようなタグを作成するためのオフライン推奨プロセスを構築する必要があります。

3. コンテンツ設定タグを例としてラベル付けプロセスを説明します

算法在 58 画像平台建设中的应用

コンテンツ設定タグを例に挙げて、このタグを作成するには、オフラインの推奨プロセスを確立する必要があります。数百万件以上の投稿に直面して、私たちはまず、ポピュラー、ルール、協調フィルタリング、および図の畳み込みニューラル ネットワーク (LightGCN) やツイン タワー (DSSM) モデルなどのその他の手法を使用して、リコール段階までの予備スクリーニングを実施します。次に、リコールされた投稿に基づいて、Pointwise アプローチを使用して CTR モデルを分類します。最終的な出力は、ユーザーが最も関心のある上位 N 件の投稿です。実際のアプリケーションでは、プッシュ シナリオを例として、トップ 1 の投稿から主要な属性を抽出してパーソナライズされたコピーを生成できます。同時に、ランディング ページは、上位 1 件の投稿の詳細ページまたは上位 N 件の投稿のリスト ページにすることができます。

算法在 58 画像平台建设中的应用

58 のローカル ビジネスの地理的およびカテゴリの特性を考慮してコンテンツ設定タグを作成する場合、ユーザーは通常、レコメンデーション内の特定の地域またはカテゴリからの投稿にのみ興味を持ちます。したがって、(EGES モデルを使用するなど) 再現率をベクトル化する場合、サイト外またはカテゴリ以外の投稿が多数存在する可能性があります。この問題を解決するには、都市情報を 16 進数で表し、0 を -1 に置き換えて、このエンコーディングを以前に生成されたベクトルに直接接続します。これにより、同じ都市内の投稿または同じ目的の投稿が確実に類似性に含まれるようになります。計算はそれらの間で最も類似性が高いため、想起と推奨の精度が向上します。

並べ替え段階では、テキストコンテンツを含むマルチモーダル情報を使用して、レコメンデーションの精度が向上します。たとえば、テキスト特徴としての投稿タイトルは、BERT や M3E などの事前トレーニング済みモデルを使用して埋め込むことで表現できます。ただし、投稿数が多いため、コンピューティング リソースに問題が生じます。この問題を解決するために、Apache Spark Machine Learning に基づく自然言語処理ライブラリである Spark NLP を使用します。ネイティブ ライブラリには中国語の BERT モデルはありませんが、いくつかの変換を通じて、大規模なオフライン推論に適用することに成功しました。

算法在 58 画像平台建设中的应用

アルゴリズムは、58 都市のユーザー ポートレート プラットフォームの機能構築においても中心的な役割を果たします。インテリジェントな運用機能を例に挙げると、トラフィック マップを使用してさまざまなビジネス間の相関関係を特定し、ビジネス パーティに運用に関する提案や結論を提供します。これらの提案に基づいて、ビジネス側はインテリジェントサークル機能を通じてオペレータークラウドパッケージを直接生成し、それを対応するチャネルに接続して配信できます。配信効果はプラットフォームを通じて監視でき、効果データに基づいて繰り返し最適化することで、運用効果を継続的に向上させることができます。

算法在 58 画像平台建设中的应用

アルゴリズムはどのように機能しますか?次回から数回に分けてご紹介していきます。まずは交通地図です。当社は、OLAP データ マイニングとデータ視覚化テクノロジーを使用して、異なるビジネス間での 58APP ユーザーのブラウジング行動を詳細に分析します。このデータを分析および処理することにより、さまざまなビジネス間のユーザーのフロー パスが表示され、運用チームにユーザーの行動を直感的に把握できるようになります。このプロセスでは、アルゴリズムはユーザーの行動パターンを特定するのに役立つだけでなく、相関分析やその他のテクノロジーを通じてさまざまなビジネス間の相関関係を調べることもできます。これらの相関関係は、貴重な運用上の提案を提供し、複数の運用において運用チームをサポートします。

算法在 58 画像平台建设中的应用

運用提案を取得した後、運用チームはインテリジェントサークル機能を使用して対象グループを選択できます。この目標を達成するために、運用チームはまずパーソナライズされた運用目標を設定し、その目標が新規顧客の獲得なのか、アクティベーションの促進なのか、コンバージョンの促進なのかなどを明確にする必要があります。次に、クラウド パッケージのサイズや期待される配信効果など、望ましい効果を設定する必要があります。さらに、運用チームは、対象グループが関連する運用活動情報を確実に受信できるように、適切な配信チャネルを選択する必要もあります。

算法在 58 画像平台建设中的应用

クラウド パッケージを生成するプロセスは、運用チームにとってブラック ボックスです。この問題に対処するために、運用チームがテクノロジをよりよく理解して適用できるように、アルゴリズムの原理と手順についてさらに多くの説明と説明を提供します。同時に、運用チームがクラウド パケットの特性と影響を直感的に表示および分析できるよう、より多くの視覚的なツールとインターフェイスを提供します。

群衆パケットを生成するプロセスでは、主に類似技術を使用します。このテクノロジーの進化において、私たちはいくつかの段階を経ました。初期段階では Yahoo のソリューションから学び、クラウド パッケージの出力をリコール モジュールとソート モジュールに分割しました。リコールモジュールは、最初にすべてのユーザーの特徴ベクトルを構築し、次にminHashとローカルセンシティブハッシュ技術を使用して特徴ベクトルを圧縮し、クラスタリングとバケット化に似た方法を通じてk-NNと同様の検索を実現し、シード間の関係を迅速に計算します。候補グループ間のペアごとの類似性に基づいて、topN が各シード ユーザーのリコール グループとして選択されます。並べ替えの段階では、最初に情報値を使用して特徴をフィルター処理し、次にフィルターされた特徴に基づいてスコアが計算され、最後にスコアが並べ替えられて最終的に群集パッケージが生成されます。プロセス全体を通じて、アルゴリズムはクラウド パッケージの精度と有効性を確保する上で重要な役割を果たしました。

算法在 58 画像平台建设中的应用

類似性に基づくソリューションに加えて、機械学習ベースの方法でも良い結果が得られます。実際のアプリケーションでは、ユーザーはシーン サークルの人々やシード クラウドのアップロードを通じてリクエストを開始できます。違いは、シードクラウドがユーザーによってアップロードされるか、または当社によって自動的にマイニングされるかどうかです。シード母集団、つまり陽性サンプルを取得した後、陰性サンプルを選択する必要があります。暴力的なグローバルランダム陰性サンプリングを使用することも、PU 学習や TSA などのアルゴリズムを使用して陰性サンプルの選択を完了することもできます。次は特徴選択段階で、これは 2 つのオプションに分かれています。1 つは、固定特徴量エンジニアリングの後、DeepFM などのモデルを使用してトレーニングと CTR 推定を完了するもので、TopN が選択されます。 CTR に基づくクラウド パッケージ。もう 1 つのオプションは、すべてのタグを特徴として使用し、IV 値と相関によって特徴を自動的に選択および削除し、AutoML フレームワークを使用して特徴エンジニアリングとモデルのトレーニングを完了し、最後に 58App で推論を実行することです。 TopN Crowd パッケージに基づいてクラウド プールと出力を実行し、チャネルに接続してリーチし、最後に配信効果データを収集してサンプル選択の反復を完了します。

上記のスキームには注意すべき点がいくつかあります。1 つ目は、エフェクト データを復元するときに、露出データだけでなく、露出されていないデータ、つまり露出バイアスもスクリーニングする必要があることです。偏見をなくすこと。同時に、反復後の効果をオフラインで評価および検証して、反復の効果を確認する必要があります。さらに、トラバーサル問題は、特に新しいシーンでは、フィーチャの観点から考慮する必要があり、フィーチャ選択の時間要素を考慮する必要があります。

算法在 58 画像平台建设中的应用

運用シナリオで蓄積されるデータが増えるにつれ、私たちはこのデータを使用してオフライン実験を実施し、反復計画を最適化しようと試み始めます。そのうちの 1 つは、メタ学習手法を採用した Tencent WeChat をベースにした Look-alike 手法です。具体的には、この手法では一般化されたモデルを構築し、オフライン段階でモデル構築を完了し、オンライン段階で少量のデータセットを使用してカスタマイズされたモデルをトレーニングし、推論作業を実行します。この方法は、サンプル サイズが比較的小さい場合のモデルの過学習の問題を解決できます。マルチシナリオとマルチターゲットの群集拡散も、次の反復の方向性の 1 つです。

3. 58のポートレートプラットフォームアプリケーションケース

1. パーソナライズされたリソースの配置

58Appのパーソナライズされたリソースの配置には、開始画面、バナーの位置、フローティングウィンドウ、料金フローカードなどが含まれます。たとえば、価格操作では、ポートレート プラットフォームのラベル選択機能を使用して群集パッケージを生成し、それらに特定のコンテンツをプッシュし、数千人の操作を完了します。

2. パーソナライズされたプッシュ

私たちのポートレートプラットフォームは、58 のプッシュプラットフォームとも完全に接続されており、運営の学生はビエンチャンのサークル選択または Look-alike を通じてグループを作成し、パーソナライズされたコピーライティングを設定し、運営上の目的を達成するためにプッシュユーザーを通じてグループに到達することができます。 。

3. 検索の推奨事項

検索の推奨事項は、ユーザーのポートレートに基づいた最も一般的なアプリケーションです。 58 新車と中古車の 2 つのビジネス パーティにはアルゴリズム担当者がいませんが、パーソナライズされたアプリケーションも作成したいと考えており、上記のコンテンツ設定タグにアクセスしています。コンテンツ設定の TopN タグは、ホームページ上の新車の推奨事項や関連する推奨事項などのリソース領域で使用されます。中古車の検索位置において、このラベルは検索ディスカバリーページの検索ボックスおよび関連する車シリーズのプロンプトにも使用されます。ルールを使用する以前の方法と比較して、プロジェクトの初期段階でソリューションとしてコンテンツ設定タグにアクセスすることでも、良い結果が得られました。

4. 展望と概要

58の現在のポートレートプラットフォームはすでに業界で共通のポートレートプラットフォーム機能を備えており、アルゴリズムの祝福を通じてインテリジェントな操作とその他の機能を実現しています。ビジネス側の運用効果を向上させるだけでなく、ユーザーにパーソナライズされたサービスを提供しながら、より良いユーザーエクスペリエンスをもたらします。次に、ビジネス関係者と緊密に協力して、より多くのアプリケーションシナリオを検討し、協力プロセス中に要約と改良、最適化と革新を行い、さまざまなニーズや課題に対応するテクノロジーをアップグレードしていきます。ユーザーと企業にとってより良いソリューションを作成できることを楽しみにしています。すごい価値。

以上が58 ポートレート プラットフォームの構築におけるアルゴリズムの適用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

改良された検出アルゴリズム: 高解像度の光学式リモートセンシング画像でのターゲット検出用 改良された検出アルゴリズム: 高解像度の光学式リモートセンシング画像でのターゲット検出用 Jun 06, 2024 pm 12:33 PM

01 今後の概要 現時点では、検出効率と検出結果の適切なバランスを実現することが困難です。我々は、光学リモートセンシング画像におけるターゲット検出ネットワークの効果を向上させるために、多層特徴ピラミッド、マルチ検出ヘッド戦略、およびハイブリッドアテンションモジュールを使用して、高解像度光学リモートセンシング画像におけるターゲット検出のための強化されたYOLOv5アルゴリズムを開発しました。 SIMD データセットによると、新しいアルゴリズムの mAP は YOLOv5 より 2.2%、YOLOX より 8.48% 優れており、検出結果と速度のバランスがより優れています。 02 背景と動機 リモート センシング技術の急速な発展に伴い、航空機、自動車、建物など、地表上の多くの物体を記述するために高解像度の光学式リモート センシング画像が使用されています。リモートセンシング画像の判読における物体検出

画期的な CVM アルゴリズムが 40 年以上の計数の問題を解決します。コンピューター科学者がコインを投げて「ハムレット」を表す固有の単語を割り出す 画期的な CVM アルゴリズムが 40 年以上の計数の問題を解決します。コンピューター科学者がコインを投げて「ハムレット」を表す固有の単語を割り出す Jun 07, 2024 pm 03:44 PM

数を数えるのは簡単そうに思えますが、実際にやってみるととても難しいです。あなたが野生動物の個体数調査を実施するために自然のままの熱帯雨林に運ばれたと想像してください。動物を見かけたら必ず写真を撮りましょう。デジタル カメラでは追跡された動物の総数のみが記録されますが、固有の動物の数に興味がありますが、統計はありません。では、このユニークな動物群にアクセスする最善の方法は何でしょうか?この時点で、今すぐ数え始めて、最後に写真から各新種をリストと比較すると言わなければなりません。ただし、この一般的なカウント方法は、数十億エントリに達する情報量には適さない場合があります。インド統計研究所、UNL、およびシンガポール国立大学のコンピューター科学者は、新しいアルゴリズムである CVM を提案しました。長いリスト内のさまざまな項目の計算を近似できます。

2025年のトップ10トレーディングアプリの最新のランキング 2025年のトップ10トレーディングアプリの最新のランキング Mar 11, 2025 pm 04:06 PM

上位10のトレーディングアプリは、okx。 ランキングは、取引所の技術的強さ、ユーザーエクスペリエンス、セキュリティ、通貨の選択、コンプライアンス、その他の要因を包括的に考慮しています。

そこに集中してください! !因果推論のための 2 つの主要なアルゴリズム フレームワークの分析 そこに集中してください! !因果推論のための 2 つの主要なアルゴリズム フレームワークの分析 Jun 04, 2024 pm 04:45 PM

1. フレームワーク全体の主なタスクは 3 つのカテゴリに分類できます。 1 つ目は因果構造の発見、つまりデータから変数間の因果関係を特定することです。 2 つ目は因果効果の推定です。つまり、ある変数が別の変数に及ぼす影響の程度をデータから推測します。この影響は相対的な性質を指すのではなく、1 つの変数が介入したときに別の変数の値または分布がどのように変化するかを指すことに注意してください。最後のステップはバイアスを修正することです。多くのタスクでは、さまざまな要因によって開発サンプルとアプリケーション サンプルの配布が異なる可能性があるためです。この場合、因果推論はバイアスを修正するのに役立つ可能性があります。これらの関数はさまざまなシナリオに適していますが、最も典型的なのは意思決定のシナリオです。因果推論を通じて、さまざまなユーザーが私たちの意思決定行動にどのように反応するかを理解できます。第二に、産業界においては、

C++ テクノロジーでのビッグ データ処理: 大きなデータ セットを効果的に保存および取得するにはどうすればよいですか? C++ テクノロジーでのビッグ データ処理: 大きなデータ セットを効果的に保存および取得するにはどうすればよいですか? Jun 02, 2024 am 10:47 AM

C++ でのビッグ データ処理のための効率的なストレージと取得戦略: ストレージ戦略: 配列とベクトル (高速アクセス)、リンク リストとリスト (動的挿入と削除)、ハッシュ テーブル (高速検索と取得)、データベース (スケーラビリティと柔軟性のデータ管理) )。検索スキル: インデックス作成 (要素の迅速な検索)、バイナリ検索 (順序付けされたデータ セットの迅速な検索)、ハッシュ テーブル (迅速な検索)。

デピンが道をリードする、AIが役立つ:分散化された物理学と人工知能のDepaiマップを一目見た デピンが道をリードする、AIが役立つ:分散化された物理学と人工知能のDepaiマップを一目見た Mar 05, 2025 am 09:18 AM

分散化された物理的人工知能(DEPAI)は、人工知能の開発において新しい方向性をリードし、ロボットと関連するインフラストラクチャの制御のための革新的なソリューションを提供しています。この記事では、データ収集、リモート操作、空間インテリジェンスの分野でのDEPAIとそのアプリケーションに関する詳細な議論を行い、その開発の見通しを分析します。 Nvidia CEOのHuang Renxunが言ったように、一般的なロボットの分野での「ChatGptの瞬間」がまもなく登場します。ハードウェアからソフトウェアまで、人工知能の開発プロセスは、現在、物理的な世界に向かっています。将来のロボットの人気の時代において、DEPAIは、特に集中型の部隊がまだ市場を完全に支配していない場合、Web3に基づいて物理的な人工知能エコシステムを構築するための重要な機会を提供します。自律的な物理的人工知能エージェントの幅広いアプリケーションは、ロボットをもたらします。

ビッグ データおよびクラウド コンピューティングの並列コンピューティング ソリューション用の Java フレームワーク ビッグ データおよびクラウド コンピューティングの並列コンピューティング ソリューション用の Java フレームワーク Jun 05, 2024 pm 08:19 PM

ビッグ データの処理と分析の課題に効果的に対処するために、Java フレームワークとクラウド コンピューティングの並列コンピューティング ソリューションは、次の方法を提供します。 Java フレームワーク: Apache Spark、Hadoop、Flink などのフレームワークは、ビッグ データの処理に特別に使用され、分散型データを提供します。エンジン、ファイル システム、ストリーム処理機能。クラウド コンピューティング パラレル コンピューティング: AWS、Azure、GCP などのプラットフォームは、EC2、AzureBatch、BigQuery などのサービスなど、柔軟でスケーラブルなパラレル コンピューティング リソースを提供します。

See all articles