「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践-AI-php.cn

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

#近年、ビッグデータ拡大モデルは、AI 分野におけるモデリングの標準パラダイムとなっています。広告シーンでは、大規模なモデルはより多くのモデルパラメータとより多くのトレーニングデータを使用し、モデルはより強力な記憶能力と一般化能力を備えているため、広告効果を向上させるための余地がさらに広がります。ただし、トレーニングプロセスで大規模なモデルに必要なリソースも急激に増加しており、ストレージとコンピューティングのプレッシャーが機械学習プラットフォームにとって大きな課題となっています。

Tencent Taiji Machine Learning Platform はコスト削減と効率向上のソリューションを模索し続けており、オフライントレーニングシナリオの広告にハイブリッド展開リソースを使用してリソースコストを大幅に削減し、Tencent Advertising に 50 W コアを提供しますTencent Advertising のオフラインモデルトレーニングリソースのコストを 30% 削減すると同時に、一連の最適化手法により、コロケーションリソースの安定性は通常のリソースと同等になります。

1. はじめに

近年、NLP 分野におけるさまざまなビッグデータの注文を席巻する大規模モデルの大成功により、ビッグデータの拡大モデルが A AI ドメインにおけるモデリングの標準パラダイム。検索、広告、レコメンデーションのモデリングも例外ではありません。あらゆる場面で数千億のパラメータを使用する T サイズモデルが、主要な予測シナリオの標準となっています。大規模なモデル機能は、主要テクノロジー間の軍拡競争の焦点にもなっています企業。

広告シーンでは、大規模なモデルはより多くのモデルパラメータを使用し、より多くのトレーニングデータを使用します。モデルはより強力な記憶能力と汎化能力を備えているため、広告効果が向上します。上向きに持ち上げると、より多くの可能性が広がります空間。ただし、トレーニングプロセスで大規模なモデルに必要なリソースも急激に増加しており、ストレージとコンピューティングのプレッシャーが機械学習プラットフォームにとって大きな課題となっています。同時に、プラットフォームがサポートできる実験の数はアルゴリズムの反復効率に直接影響を与えるため、より多くの実験リソースをより低コストで提供する方法がプラットフォームの取り組みの焦点です。

2, Taiji Machine Learning Platform の概要

Taiji Machine Learning Platform は、ユーザーが集中できるようにすることに尽力しています。ビジネス AI の問題解決とアプリケーションの詳細については、アルゴリズムエンジニアが AI アプリケーションプロセスにおける特徴処理、モデルトレーニング、モデルサービスなどのエンジニアリング問題を解決するためのワンストップソリューションをご覧ください。現在、企業内広告、検索、ゲーム、テンセントカンファレンス、テンセントクラウドなどの主要ビジネスをサポートしている。

Taiji Advertising Platform は、Taiji Advertising System によって設計された、モデルのトレーニングとオンライン推論を統合した高性能機械学習プラットフォームであり、数兆のパラメーターモデルのトレーニングと推論機能を備えています。現在、このプラットフォームはテンセントの広告リコール、ラフランキング、ファインランキング、数十のモデルトレーニングとオンライン推論をサポートしており、同時にTaijiプラットフォームはワンストップの特徴登録、サンプル補足記録、モデルトレーニング、モデル評価、オンラインを提供します。テスト機能が大幅に向上し、開発者の効率が向上します。

トレーニングプラットフォーム: 現在、モデルトレーニングは CPU と GPU の 2 つのトレーニングモードをサポートしており、自社開発の効率的な演算子と混合精度を使用します。 3D 並列技術やその他のテクノロジーにより、業界のオープンソースシステムと比較してトレーニング速度が 1 桁高速化されます。
推論フレームワーク: Taiji が独自に開発した HCF (Heterogeneous Computing Framework) ヘテロジニアスコンピューティングフレームワーク (ハードウェア層、コンパイル層、ソフトウェアを通じて)レイヤージョイントの最適化により、究極のパフォーマンスの最適化が実現します。

#3. コスト最適化の具体的な実施

(1) 全体計画の紹介

太極拳プラットフォームの継続的な開発に伴い、タスクの数と種類は日々増加しており、必要なリソースも増加しています。コストを削減し、効率を高めるために、太極拳プラットフォームは、一方ではプラットフォームのパフォーマンスを向上させ、トレーニング速度を向上させますが、他方では、増大するリソース需要を満たすために、より安価なリソースも探しています。

Fengluan - Tencent の社内クラウドネイティブビッグデータプラットフォームは、クラウドネイティブテクノロジを使用して会社のビッグデータアーキテクチャ全体をアップグレードします。ビッグデータビジネスの継続的に増大するリソース需要に対応するために、Fengluan はコロケーションリソースを導入しました。これにより、リソース需要を満たすだけでなく、リソースコストも大幅に削減できます。 Fengluan は、さまざまなシナリオにおけるコロケーションリソース向けの一連のソリューションを提供し、不安定なコロケーションリソースをビジネスにとって透過的な安定したリソースに変えます。 Fengluan のコロケーション機能は、次の 3 種類のコロケーションリソースをサポートします。

オンラインのアイドルリソースを再利用します。オンラインリソースの山と谷、リソース使用量の過大評価、およびクラスターリソースの断片化により、クラスターリソースの使用率は低く、アイドル状態のリソースが多数存在します。 Fengluan は、これらの一時的なアイドルリソースを利用してビッグデータタスクを実行し、現在、オンライン広告、ストレージ、ソーシャルエンターテイメント、ゲームなどのシナリオにそれらを展開しています。
#オフラインリソースの柔軟な貸し出し。ビッグデータプラットフォーム上の一部のタスクには潮汐現象があり、ビッグデータクラスターのリソース使用率が低い日中、Fengluanは一部のリソースの一時的な柔軟な貸し出しをサポートし、ピーク前にこれらのリソースを回収します。ビッグデータクラスターが到着します。このシナリオは、休日や大規模なプロモーション中に一時的に大量のリソースを必要とするオンラインタスクの問題を解決するのに非常に適しています。Fengluan は現在、春節や 618 などの主要な休日をサポートしています。
#コンピューティングリソースを再利用します。コンピューティングリソースは、低品質 CVM の形式でマイカマシンのアイドルリソースからマイニングされます。いわゆる低品質 CVM とは、マイカマシン上でより低い CPU 優先順位で CVM 仮想マシンを起動することを指します。この仮想マシンは、他の仮想マシンによってリアルタイムでプリエンプトされる可能性があります。 Fengluan は、基盤となるコンピューティング能力によって提供されるリソース情報に基づいて、スケジューリング、過負荷保護、コンピューティング能力の移行などの面で多くの最適化を行っており、現在、数百万コアのビッグデータタスクがコンピューティング能力リソース上で安定して実行されています。

同時に、Fengluan は、異なる都市や地域からの基盤となるコロケーションリソースによって引き起こされる分散特性を保護するために、クラウドネイティブの仮想クラスターテクノロジーを導入しました。。 Taiji プラットフォームは、さまざまな基盤となるコロケーションリソースに対応する Fengluan テナントクラスターに直接接続されており、テナントクラスターは独立した完全なクラスターの観点を持ち、Taiji プラットフォームもシームレスに接続できます。

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

# (2) リソースコロケーションプラン

オンラインのアイドルリソース

Fengluan は、Caelus フルシナリオのオフラインコロケーションソリューションを自社開発しました。オンライン操作とオフライン操作をコロケーションすることで、オンラインマシンのアイドルリソースを最大限に活用し、パフォーマンスを向上させます。オフライン操作のリソースコストを削減しながら、オンラインのマシンリソースを活用します。

下図に示すように、Caelus の基本的なアーキテクチャであり、各コンポーネントとモジュールが相互に連携して、さまざまな面でコロケーションの品質を保証します。

まず第一に、Caelus はオンライン運用のサービス品質をあらゆる面で保証しますが、これはコロケーションの重要な前提条件の 1 つでもあります。たとえば、迅速な干渉検出と処理を通じてです。このメカニズムでは、オンラインサービスの品質、タイムリーな処理を積極的に感知し、ビジネスの特定の干渉検出要件をサポートするプラグイン拡張方法をサポートします。全次元のリソース分離、柔軟なリソース管理戦略などを通じて、オンラインサービスの優先度は高くなります。確保されています。

第二に、Caelus は、リソースの競合を避けるために、コロケーションリソースやオフラインジョブポートレートを通じて適切なリソースをジョブにマッチングすること、オフラインジョブのエビクション戦略の最適化とエビクションの優先順位付けなど、さまざまな側面でオフラインジョブの SLO を保証します。正常な終了をサポートし、戦略は柔軟で制御可能です。ビッグデータのオフラインジョブのほとんどは短時間 (数分、場合によっては数秒) ですが、ほとんどの太極拳ジョブは実行に時間がかかります (数時間、場合によっては数日)。長期的なリソース予測とジョブポートレートを通じて、実行時間やリソース要件が異なるジョブに適したリソースを見つけるためのスケジューリングをより適切にガイドできるようになり、数時間または数日間実行した後にジョブが削除されてジョブステータスが失われることを回避できます。資源と時間の無駄。オフラインジョブを削除する必要がある場合、最初にランタイムライブマイグレーションを使用してジョブインスタンスをあるマシンから別のマシンに移行しますが、メモリステータスと IP は変更されません。ジョブへの影響はほとんどなく、パフォーマンスが大幅に向上します。仕事の効率性、SLO。コロケーションリソースをより有効に活用するために、Caelus にはさらに多くの機能もあります。詳細については、Caelus のフルシナリオオフラインコロケーションソリューションを参照してください。（ //m.sbmmt.com/link/caaeb10544b465034f389991efc90877 ）。

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

#潮汐資源

ビッグデータタスクは一般に、潮汐期間中に比較的大規模になります。夜間はタスクが少ないため、Fengluan は日中に使用されていないビッグデータリソースの一部を Taiji プラットフォームに転送し、夜間にこれらのリソースをリサイクルします。 Tidal リソースの特徴は、ノード上のビッグデータタスクがほぼ完全に終了しているにもかかわらず、ビッグデータストレージサービス HDFS がノード上に保持されており、太極拳ジョブの実行時に HDFS サービスが影響を受けることがないことです。 Taiji プラットフォームが潮汐資源を使用する場合、Fengluan プラットフォームとの合意に達する必要があります。Fengluan プラットフォームは、一定時点の履歴データに基づいてノードのバッチを事前にスクリーニングします。ビッグデータタスクが正常に終了した後、新しいノードが参加したことを Taiji プラットフォームに通知すると、Taiji プラットフォームはテナントクラスターがさらにタスクを送信し始めます。借用時間が到来する前に、Fengluan は Taiji Platform に一部のノードをリサイクルする必要があることを通知し、Taiji Platform は順序立ててノードを返却します。

##下の図に示すように、潮汐資源の採掘、管理、利用には分業と複数のシステムの協力が必要です。

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

ビッグデータリソース転送システム: このシステムは、各マシンのさまざまなジョブ実行条件とクラスターの稼働データに基づいた機械学習アルゴリズムに基づいています。特定のリソース要件を満たし、実行中のジョブへの影響を最小限に抑えるためにオフラインにするのに最適なマシンノードを見つけて、これらのノードへの新しいジョブのスケジュールを禁止し、ノード上で実行中のジョブの実行が終了するまで待機して、削減効果を最大限に高めます。ビッグデータ運用への影響。
Caelus コロケーションシステム: 転送システムによって空いたマシンリソースではビッグデータジョブは実行されなくなりましたが、 HDFS サービスは、データの読み取りおよび書き込みサービスも提供します。 HDFSサービスを保護するために、Caelusコロケーションシステムが導入されており、HDFSをオンラインサービスとして使用し、Caelusの一連のオンラインサービス保証方法（影響の有無の検出など）を通じてHDFSサービスの品質が影響を受けないことを保証します。 HDFS 主要指標を通じて)。
仮想クラスターを通じて Tide リソースを使用する: これらの転送されたマシンリソースは、Fengluan によって均一に管理およびスケジュールされ、仮想クラスターとして使用されます。このメソッドは Taiji プラットフォームに提供され、K8S ネイティブインターフェイスを提供します。これにより、基礎となるリソースの違いが上位のプラットフォームから保護され、アプリケーションが同じ方法でリソースを使用できるようになります。
アプリケーション層ブレークポイント再開トレーニングに接続しました: 潮汐資源はビッグデータジョブを実行するために夜間にリサイクルされます。リサイクルの影響を軽減するために、ピーク層とアプリケーション層のブレークポイント再開トレーニング機能が開放され、トレーニングを中断することなくリソースの切り替えが実現され、切り替え後のビジネスの継続運用には影響がありません。

コンピューティングリソース

コンピューティングリソースの特徴は、ビジネスに専用の CVM を提供することです。ビジネスユーザーにとっては比較的フレンドリーです。ただし、コンピューティングリソースを使用する際の課題は、マイカマシンレベルの低品質 CVM の CPU リソースがいつでもオンライン CVM によって抑制されるため、コンピューティングリソースが非常に不安定になることです。

コンピューティング能力マシンの不安定性: 断片化したリソースの統合、コンピュータルームの電力不足などにより、コンピューティングマシンがオフラインになる可能性があります。
コンピューティングリソースの優先度が低い: 通常の CVM マシンのサービス品質が影響を受けないようにするため、コンピューティングリソース上のジョブの優先度は最も低く、無条件でジョブに割り当てられます。高品質のリソースを使用すると、パフォーマンスが非常に不安定になります。
高いエビクション頻度: さまざまな理由 (不十分なコンピューティングリソースのパフォーマンス、不十分なディスク領域、ディスクのスタックなど) によってポッドのアクティブなエビクションがトリガーされ、ポッドが失敗する可能性が高くなります。

コンピューティングパワーリソースの不安定性の問題を解決するために、ピークアンドマウンテンメインコントロール層を通じてさまざまな機能が拡張され、コンピューティングパワーリソースが多面的に最適化されます。コンピューティング能力の安定性を向上させる：

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

##① リソースのポートレートと予測: 探索と収集さまざまなマシンパフォーマンスインジケーターと、将来の低品質 CVM の利用可能なリソースを予測する集約インジケーターを生成します。この情報は、スケジューラによってポッドをスケジュールするために使用され、エビクションコンポーネントはポッドのリソース要件を満たすためにポッドをエビクトするために使用されます。

② スケジュールの最適化: 太極拳運営のサービス品質を確保するために、運営のニーズに基づいてスケジュール戦略をさらに最適化します。リソースの特性を活かし、動作パフォーマンスが2倍以上向上しました。

###

同じ都市のスケジューリング: PST ジョブとトレーニングジョブを同じ都市の同じコンピュータールームにスケジュールし、ジョブインスタンス間のネットワーク遅延と、同じ都市のネットワーク帯域幅のコストを最小限に抑えます。も低くなり、コストダウンに貢献します。
単一マシンのスケジューリングの最適化: リソース予測の結果と CPU スティールタイムなどの指標を組み合わせて、コアをバインドするジョブのパフォーマンスがより高い CPU を選択します。仕事のパフォーマンスをより向上させるために。
階層スケジューリング: すべての管理リソースに自動的にラベルを付けて分類し、ジョブマネージャーなどの災害復旧要件の高いジョブを比較的安定したリソースになるように自動的にスケジュールします。
スケジューリングパラメーターの調整: リソースのポートレートと予測データに基づいて、スケジューラーはジョブのパフォーマンスと安定性が向上したノードに優先順位を付けます。さらに、一貫性のないステップによって引き起こされるエシュロンの有効期限の問題を解決するために、同じジョブのインスタンスが同様のパフォーマンスを持つマシンにスケジュールされます。

#③ランタイムサービスの品質保証

アクティブエビクションフェーズでは、リソースの不安定性やアプリケーションの障害に対処するために、ビジネスを基本的に認識できないようにするランタイムホットマイグレーションが導入されます。ポッドのエビクションにより強制終了される問題を解決し、ランタイムホットマイグレーションを実装し、さまざまなシナリオのニーズを満たすさまざまなホットマイグレーション戦略を提供します。現在のオンラインデータによると、移行優先戦略を使用した場合、メモリが大きいコンテナの場合、ライブマイグレーションの中断時間は 10 秒を超えています。また、メモリサイズに関係なく一定の割り込み時間を実装しました (リカバリファースト戦略)。現在、毎日 20,000 を超えるポッドがアクティブに正常に移行されており、クラスター間のホットマイグレーションがサポートされているため、エビクションの影響が大幅に軽減されます。
エビクション戦略を最適化してエビクションの影響を最小限に抑えます。各マシンがエビクションされるたびに、エビクション後に開始されたポッドが優先され、マシンへの影響を回避します。すでに開始されています各タスクは、単一タスクの上流と下流のエビクションを回避するために、一度に 1 つのノードのみをエビクトし、タスクレベルの再起動が発生します。ポッドがエビクトされると、上位層の Flink フレームワークとリンクして、Flink に積極的に通知します。迅速なシングルポイントリカバリを実現します。

④ セルフフィードバックの最適化: リソースポートレートを通じて、パフォーマンスの低いマシンを定期的に交換し、基盤となるプラットフォームに接続して、 CVM のスムーズな切り離しにより、Fengluan はビジネスに影響を与えることなくアプリケーションインスタンスを 1 つずつ移行できるようになり、インスタンスへの影響が軽減されます。

#⑤ Flink 層の災害復旧機能を改善し、シングルポイント再起動と階層的スケジューリングをサポートします

#TM (タスクManager) のシングルポイント再起動機能は、タスクの失敗によって DAG 全体が失敗することを防ぎ、コンピューティング能力のプリエンプティブ機能に適切に適応できます。階層スケジューリングにより、ギャングスケジューリングによって引き起こされる過度のジョブ待機が回避され、過剰なアプリケーションの無駄が回避されます。 TM ポッド。

(3) アプリケーション層最適化ソリューション

ビジネスフォールトトレランス

オフライントレーニングタスクでは、次のことを行う必要があります。安価なリソースの大前提は、リソース上の元のタスクの通常の動作に影響を与えられないことです。そのため、コロケーションリソースには次のような重要な課題があります。コロケーションリソースはほとんどが一時的なリソースです。頻繁にオフラインになります;

コロケーションリソースは無条件に高品質のリソースに負け、その結果マシンのパフォーマンスが非常に不安定になります;
コロケーションリソース自動エビクションメカニズムにより、ノードとポッドの障害の可能性も大幅に増加します。

コロケーションリソース上でタスクを安定して実行できるようにするために、プラットフォームでは 3 つの-レベルのフォールトトレランス戦略。具体的には、解決策は次のとおりです: 「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

ホットマイグレーションテクノロジ: タスクマネージャーが削除されそうになる前に事前に感知し、対応するタスクマネージャーを別のポッドに移行します。同時に、メモリ圧縮、ストリーミング同時実行、クロスクラスターのホットマイグレーションなど。サーマルマイグレーションの成功率を継続的に最適化する機能。
タスクマネージャーの再起動: タスク内のタスクマネージャーが例外またはエビクションにより失敗した場合、タスク全体は失敗せずに直接終了しますが、最初にタスクマネージャーのステータスが保存されます。 . を実行し、タスクマネージャーを再起動すると、タスク全体が失敗する可能性が低くなります。
タスクの完全回復: Flink ステータスの異常によりタスクが回復不能な状態になった場合、ジョブマネージャーの安定性を確保するためにジョブマネージャーの再起動がトリガーされます。、プラットフォームは安定性の高い独立したリソースにデプロイされ、通常のタスクのステータスを保証します。
ブレークポイント継続トレーニング: 以前のフォールトトレランス戦略が失敗した場合、プラットフォームは履歴内の特定の ckpt に基づいてタスクを再開します。

ビジネス層の耐障害性により、コロケーションリソース上で実行されるタスクの安定性は、開始時の 90% 未満から終了時には 99.5% まで向上しました。 . 基本および通常の専用リソース上記のタスクの安定性は変わりません。

タスク潮汐スケジュール

潮汐資源の要件を考慮すると、オフライントレーニングタスクは日中にのみ使用でき、提供する必要があります。夜間のオンラインビジネス用途のため、太極拳プラットフォームは、リソースの可用性に基づいて日中にトレーニングタスクを自動的に開始する必要があり、夜間にタスクのコールドバックアップを作成し、同時に対応するトレーニングタスクを停止する必要があります。同時に、各タスクのスケジュールの優先度はタスク管理キューによって管理され、夜間に開始された新しいタスクは自動的にキュー状態になり、翌朝の新しいタスクの開始を待ちます。

「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践

コアチャレンジ:

潮汐現象: 資源は次の期間に使用できます。当日はオフラインタスク用に提供され、夜間にリサイクルする必要があります。
リソースの動的な変化: 日中もリソースは不安定であり、いつでも変化します。通常、午前中はリソースが少なく、その後はリソースが少なくなります。資源は徐々に増加し、夜には資源がピークに達します。

解決策:

リソースを意識したスケジューリング戦略: 朝のリソースが徐々に増加する間、潮汐スケジューリングサービスは、リソースの変化を感知し、リソースのステータスを追跡して、トレーニングを継続するタスクを開始する必要があります。
モデルの自動バックアップ機能: 夜間にリソースをリサイクルする前に、現在のプラットフォームで実行されているすべてのタスクを段階的にバックアップする必要があるため、システムに負担がかかります。プラットフォームのストレージと帯域幅。プラットフォーム上に数百のタスクがあり、各タスクのコールドバックアップのサイズは数百 G から数テラバイトの範囲であるため、非常に大きくなります。コールドバックアップが同時に実行される場合は、数百テラバイトのデータを短時間で送信および保存する必要があるため、ストレージとネットワークの両方が大きな課題となるため、合理的なスケジューリング戦略を立てて、モデルを段階的に保存する必要があります。
インテリジェントなリソーススケジューリング機能: 従来のトレーニングと比較して、タイダルスケジューリングには、リソースが夜間にリサイクルされるときやタスクが毎日新しく開始されるときに、各タスクのモデルのバックアップが含まれます。朝のオーバーヘッドは追加のオーバーヘッドです。この追加のオーバーヘッドを削減するには、スケジュールを立てるときに、どのタスクが同じ日に完了できるか、どのタスクを複数日に渡って実行する必要があるかを評価する必要があります。同じ日にタスクが確実に完了するように、優先的により多くのリソースを割り当てます。

#これらの最適化により、タスクが潮汐資源上で安定して実行でき、基本的にビジネス層を認識しないことが保証されます。同時に、タスクの実行速度は大きな影響を受けず、タスクの開始および停止のスケジューリングによって生じる追加のオーバーヘッドは 10% 以内に制御されます。

4. オンライン効果と将来展望

Taiji のオフラインハイブリッド配信最適化ソリューションは、Tencent の広告シナリオに実装されており、Tencent の広告オフラインモデルに全天候型の 30 W コアを提供します。毎日の調査とトレーニング混合展開リソース、20W コア潮汐リソース、広告リコールのサポート、大まかなランキング、詳細なランキングのマルチシナリオモデルトレーニング。リソースコストに関しては、同じ計算負荷のタスクの場合、ハイブリッドデプロイメントのリソースコストは通常のリソースの 70% になります。最適化後、システムの安定性と物理クラスタータスクの成功率は基本的に同じになります。

今後も、一方では、ハイブリッドコンピューティングリソース、特にハイブリッドコンピューティングリソースのアプリケーションの使用を増やし続ける一方で、当社のオンラインビジネスも強化していきます。 GPU ベースになりつつあるため、混合リソースアプリケーションでは、従来の CPU リソースに加えて、オフライントレーニング中にオンライン GPU リソースも使用されるようになります。

今日の共有はこれで終わりです。皆さんありがとうございました。

以上が「太極拳」に基づくテンセント広告モデルのトレーニングコスト最適化実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。