#近年、ビッグデータ拡大モデルは、AI 分野におけるモデリングの標準パラダイムとなっています。広告シーンでは、大規模なモデルはより多くのモデルパラメータとより多くのトレーニングデータを使用し、モデルはより強力な記憶能力と一般化能力を備えているため、広告効果を向上させるための余地がさらに広がります。ただし、トレーニング プロセスで大規模なモデルに必要なリソースも急激に増加しており、ストレージとコンピューティングのプレッシャーが機械学習プラットフォームにとって大きな課題となっています。
Tencent Taiji Machine Learning Platform はコスト削減と効率向上のソリューションを模索し続けており、オフライン トレーニング シナリオの広告にハイブリッド展開リソースを使用してリソース コストを大幅に削減し、Tencent Advertising に 50 W コアを提供しますTencent Advertising のオフライン モデル トレーニング リソースのコストを 30% 削減すると同時に、一連の最適化手法により、コロケーション リソースの安定性は通常のリソースと同等になります。
近年、NLP 分野におけるさまざまなビッグデータの注文を席巻する大規模モデルの大成功により、ビッグデータの拡大モデルが A AI ドメインにおけるモデリングの標準パラダイム。検索、広告、レコメンデーションのモデリングも例外ではありません。あらゆる場面で数千億のパラメータを使用する T サイズ モデルが、主要な予測シナリオの標準となっています。大規模なモデル機能は、主要テクノロジー間の軍拡競争の焦点にもなっています企業。
広告シーンでは、大規模なモデルはより多くのモデルパラメータを使用し、より多くのトレーニングデータを使用します。モデルはより強力な記憶能力と汎化能力を備えているため、広告効果が向上します。上向きに持ち上げると、より多くの可能性が広がります空間。ただし、トレーニング プロセスで大規模なモデルに必要なリソースも急激に増加しており、ストレージとコンピューティングのプレッシャーが機械学習プラットフォームにとって大きな課題となっています。同時に、プラットフォームがサポートできる実験の数はアルゴリズムの反復効率に直接影響を与えるため、より多くの実験リソースをより低コストで提供する方法がプラットフォームの取り組みの焦点です。
Tencent Taiji Machine Learning Platform はコスト削減と効率向上のソリューションを模索し続けており、オフライン トレーニング シナリオの広告にハイブリッド展開リソースを使用してリソース コストを大幅に削減し、Tencent Advertising に 50 W コアを提供しますTencent Advertising のオフライン モデル トレーニング リソースのコストを 30% 削減すると同時に、一連の最適化手法により、コロケーション リソースの安定性は通常のリソースと同等になります。
Taiji Machine Learning Platform は、ユーザーが集中できるようにすることに尽力しています。ビジネス AI の問題解決とアプリケーションの詳細については、アルゴリズム エンジニアが AI アプリケーション プロセスにおける特徴処理、モデル トレーニング、モデル サービスなどのエンジニアリング問題を解決するためのワンストップ ソリューションをご覧ください。現在、企業内広告、検索、ゲーム、テンセントカンファレンス、テンセントクラウドなどの主要ビジネスをサポートしている。
Taiji Advertising Platform は、Taiji Advertising System によって設計された、モデルのトレーニングとオンライン推論を統合した高性能機械学習プラットフォームであり、数兆のパラメーター モデルのトレーニングと推論機能を備えています。現在、このプラットフォームはテンセントの広告リコール、ラフランキング、ファインランキング、数十のモデルトレーニングとオンライン推論をサポートしており、同時にTaijiプラットフォームはワンストップの特徴登録、サンプル補足記録、モデルトレーニング、モデル評価、オンラインを提供します。テスト機能が大幅に向上し、開発者の効率が向上します。
太極拳プラットフォームの継続的な開発に伴い、タスクの数と種類は日々増加しており、必要なリソースも増加しています。コストを削減し、効率を高めるために、太極拳プラットフォームは、一方ではプラットフォームのパフォーマンスを向上させ、トレーニング速度を向上させますが、他方では、増大するリソース需要を満たすために、より安価なリソースも探しています。
Fengluan - Tencent の社内クラウドネイティブ ビッグ データ プラットフォームは、クラウドネイティブ テクノロジを使用して会社のビッグデータ アーキテクチャ全体をアップグレードします。ビッグデータ ビジネスの継続的に増大するリソース需要に対応するために、Fengluan はコロケーション リソースを導入しました。これにより、リソース需要を満たすだけでなく、リソース コストも大幅に削減できます。 Fengluan は、さまざまなシナリオにおけるコロケーション リソース向けの一連のソリューションを提供し、不安定なコロケーション リソースをビジネスにとって透過的な安定したリソースに変えます。 Fengluan のコロケーション機能は、次の 3 種類のコロケーション リソースをサポートします。
同時に、Fengluan は、異なる都市や地域からの基盤となるコロケーション リソースによって引き起こされる分散特性を保護するために、クラウドネイティブの仮想クラスター テクノロジーを導入しました。 。 Taiji プラットフォームは、さまざまな基盤となるコロケーション リソースに対応する Fengluan テナント クラスターに直接接続されており、テナント クラスターは独立した完全なクラスターの観点を持ち、Taiji プラットフォームもシームレスに接続できます。
# (2) リソース コロケーション プラン下図に示すように、Caelus の基本的なアーキテクチャであり、各コンポーネントとモジュールが相互に連携して、さまざまな面でコロケーションの品質を保証します。
まず第一に、Caelus はオンライン運用のサービス品質をあらゆる面で保証しますが、これはコロケーションの重要な前提条件の 1 つでもあります。たとえば、迅速な干渉検出と処理を通じてです。このメカニズムでは、オンライン サービスの品質、タイムリーな処理を積極的に感知し、ビジネスの特定の干渉検出要件をサポートするプラグイン拡張方法をサポートします。全次元のリソース分離、柔軟なリソース管理戦略などを通じて、オンライン サービスの優先度は高くなります。確保されています。
第二に、Caelus は、リソースの競合を避けるために、コロケーション リソースやオフライン ジョブ ポートレートを通じて適切なリソースをジョブにマッチングすること、オフライン ジョブのエビクション戦略の最適化とエビクションの優先順位付けなど、さまざまな側面でオフライン ジョブの SLO を保証します。正常な終了をサポートし、戦略は柔軟で制御可能です。ビッグデータのオフライン ジョブのほとんどは短時間 (数分、場合によっては数秒) ですが、ほとんどの太極拳ジョブは実行に時間がかかります (数時間、場合によっては数日)。長期的なリソース予測とジョブ ポートレートを通じて、実行時間やリソース要件が異なるジョブに適したリソースを見つけるためのスケジューリングをより適切にガイドできるようになり、数時間または数日間実行した後にジョブが削除されてジョブ ステータスが失われることを回避できます。資源と時間の無駄。オフライン ジョブを削除する必要がある場合、最初にランタイム ライブ マイグレーションを使用してジョブ インスタンスをあるマシンから別のマシンに移行しますが、メモリ ステータスと IP は変更されません。ジョブへの影響はほとんどなく、パフォーマンスが大幅に向上します。仕事の効率性、SLO。コロケーション リソースをより有効に活用するために、Caelus にはさらに多くの機能もあります。詳細については、Caelus のフルシナリオ オフライン コロケーション ソリューションを参照してください。( //m.sbmmt.com/link/caaeb10544b465034f389991efc90877 )。
ビッグデータ タスクは一般に、潮汐期間中に比較的大規模になります。夜間はタスクが少ないため、Fengluan は日中に使用されていないビッグデータ リソースの一部を Taiji プラットフォームに転送し、夜間にこれらのリソースをリサイクルします。 Tidal リソースの特徴は、ノード上のビッグ データ タスクがほぼ完全に終了しているにもかかわらず、ビッグ データ ストレージ サービス HDFS がノード上に保持されており、太極拳ジョブの実行時に HDFS サービスが影響を受けることがないことです。 Taiji プラットフォームが潮汐資源を使用する場合、Fengluan プラットフォームとの合意に達する必要があります。Fengluan プラットフォームは、一定時点の履歴データに基づいてノードのバッチを事前にスクリーニングします。ビッグデータ タスクが正常に終了した後、新しいノードが参加したことを Taiji プラットフォームに通知すると、Taiji プラットフォームはテナント クラスターがさらにタスクを送信し始めます。借用時間が到来する前に、Fengluan は Taiji Platform に一部のノードをリサイクルする必要があることを通知し、Taiji Platform は順序立ててノードを返却します。
##下の図に示すように、潮汐資源の採掘、管理、利用には分業と複数のシステムの協力が必要です。
コンピューティング リソースの特徴は、ビジネスに専用の CVM を提供することです。ビジネスユーザーにとっては比較的フレンドリーです。ただし、コンピューティング リソースを使用する際の課題は、マイカ マシン レベルの低品質 CVM の CPU リソースがいつでもオンライン CVM によって抑制されるため、コンピューティング リソースが非常に不安定になることです。
コンピューティングパワーリソースの不安定性の問題を解決するために、ピークアンドマウンテンメインコントロール層を通じてさまざまな機能が拡張され、コンピューティングパワーリソースが多面的に最適化されます。コンピューティング能力の安定性を向上させる :
##① リソースのポートレートと予測: 探索と収集さまざまなマシン パフォーマンス インジケーターと、将来の低品質 CVM の利用可能なリソースを予測する集約インジケーターを生成します。この情報は、スケジューラによってポッドをスケジュールするために使用され、エビクション コンポーネントはポッドのリソース要件を満たすためにポッドをエビクトするために使用されます。
② スケジュールの最適化: 太極拳運営のサービス品質を確保するために、運営のニーズに基づいてスケジュール戦略をさらに最適化します。リソースの特性を活かし、動作パフォーマンスが2倍以上向上しました。
####③ランタイム サービスの品質保証
④ セルフフィードバックの最適化: リソース ポートレートを通じて、パフォーマンスの低いマシンを定期的に交換し、基盤となるプラットフォームに接続して、 CVM のスムーズな切り離しにより、Fengluan はビジネスに影響を与えることなくアプリケーション インスタンスを 1 つずつ移行できるようになり、インスタンスへの影響が軽減されます。
#⑤ Flink 層の災害復旧機能を改善し、シングルポイント再起動と階層的スケジューリングをサポートします
#TM (タスクManager) のシングルポイント再起動機能は、タスクの失敗によって DAG 全体が失敗することを防ぎ、コンピューティング能力のプリエンプティブ機能に適切に適応できます。階層スケジューリングにより、ギャング スケジューリングによって引き起こされる過度のジョブ待機が回避され、過剰なアプリケーションの無駄が回避されます。 TM ポッド。
オフライントレーニングタスクでは、次のことを行う必要があります。安価なリソースの大前提は、リソース上の元のタスクの通常の動作に影響を与えられないことです。そのため、コロケーション リソースには次のような重要な課題があります。コロケーション リソースはほとんどが一時的なリソースです。頻繁にオフラインになります;
コロケーション リソース上でタスクを安定して実行できるようにするために、プラットフォームでは 3 つの-レベルのフォールト トレランス戦略。具体的には、解決策は次のとおりです:
ビジネス層の耐障害性により、コロケーション リソース上で実行されるタスクの安定性は、開始時の 90% 未満から終了時には 99.5% まで向上しました。 . 基本および通常の専用リソース 上記のタスクの安定性は変わりません。
潮汐資源の要件を考慮すると、オフライン トレーニング タスクは日中にのみ使用でき、提供する必要があります。夜間のオンライン ビジネス用途のため、太極拳プラットフォームは、リソースの可用性に基づいて日中にトレーニング タスクを自動的に開始する必要があり、夜間にタスクのコールド バックアップを作成し、同時に対応するトレーニング タスクを停止する必要があります。同時に、各タスクのスケジュールの優先度はタスク管理キューによって管理され、夜間に開始された新しいタスクは自動的にキュー状態になり、翌朝の新しいタスクの開始を待ちます。
#これらの最適化により、タスクが潮汐資源上で安定して実行でき、基本的にビジネス層を認識しないことが保証されます。同時に、タスクの実行速度は大きな影響を受けず、タスクの開始および停止のスケジューリングによって生じる追加のオーバーヘッドは 10% 以内に制御されます。
Taiji のオフライン ハイブリッド配信最適化ソリューションは、Tencent の広告シナリオに実装されており、Tencent の広告オフライン モデルに全天候型の 30 W コアを提供します。毎日の調査とトレーニング 混合展開リソース、20W コア潮汐リソース、広告リコールのサポート、大まかなランキング、詳細なランキングのマルチシナリオ モデル トレーニング。リソース コストに関しては、同じ計算負荷のタスクの場合、ハイブリッド デプロイメントのリソース コストは通常のリソースの 70% になります。最適化後、システムの安定性と物理クラスター タスクの成功率は基本的に同じになります。
今後も、一方では、ハイブリッド コンピューティング リソース、特にハイブリッド コンピューティング リソースのアプリケーションの使用を増やし続ける一方で、当社のオンライン ビジネスも強化していきます。 GPU ベースになりつつあるため、混合リソース アプリケーションでは、従来の CPU リソースに加えて、オフライン トレーニング中にオンライン GPU リソースも使用されるようになります。
今日の共有はこれで終わりです。皆さんありがとうございました。
以上が「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。