ビッグデータAI分野におけるプライバシーコンピューティングの応用実践-AI-php.cn

#01 プライバシーコンピューティングの背景と現状

1. プライバシーコンピューティングの背景

プライバシーコンピューティングは今や必需品となっています。一方で、個人ユーザーのプライバシーや情報セキュリティに対する要求はますます強くなっています。一方で、欧州連合のGDPR、米国のCCPA、国内の個人情報保護法など、プライバシーやセキュリティに関連する法令が数多く発布され、規制や政策は緩やかなものから厳格なものへと徐々に変化してきています。、主に権利利益、実施範囲、執行力等に反映されます。 GDPRを例に挙げると、2018年に発効して以来、1,000件を超える事件が発生し、罰金総額は110億を超え、単一の罰金の最高額は50億を超えている（Amazon）。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

2. プライバシーコンピューティング現在の状況

#これに関連して、データセキュリティはオプションから必須に変わりました。これにより、多数の企業、投資、新興企業、専門家がセキュリティとプライバシー技術のエコシステムに投資するようになり、学術界は業界のニーズに応えて多くの将来を見据えた調査を実施してきました。これらの要因は、近年のセキュリティおよびプライバシーのテクノロジとエコシステムの精力的な発展に貢献しており、その中で、差分プライバシー、信頼できる実行環境、準同型暗号化、安全なマルチパーティコンピューティング、フェデレーテッドラーニングなどのテクノロジはすべて大きな進歩を遂げています。 Gartner もこの分野の発展に楽観的であり、将来的には数百億、さらには数千億の価値がある市場になると信じています。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践 ##02

ビッグデータ AI プライバシーコンピューティング1. ビッグデータ AI の背景

ビッグデータ AI の背景に戻り、業界のマクロな視点からビッグデータを説明します。このフレームワークとテクノロジーは商品化され、大規模に普及しています。私たちは常にビッグデータテクノロジーを使用しているかもしれませんが、プログラムやモデルのトレーニングが数千、さらには数万のノードと大規模なデータからなるサーバークラスター上で実行されているとは感じません。近年、この分野の開発方向には 2 つの新しい傾向があります。1 つは使いやすさの向上、もう 1 つは応用方向の洗練です。前者はビッグデータテクノロジの使用の敷居を大幅に下げましたが、後者はデータレイクなどの新たなニーズや問題に対する新しいソリューションを提供し続けています。

#AI フレームワークとの組み合わせという観点から見ると、ビッグデータと AI エコシステムは密接に統合されています。 AI モデルの場合、データ量が多く、品質が高いほどモデルの学習効果が高まるため、ビッグデータと AI の 2 つの分野は自然に組み合わされます。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践 ##しかし、それでもビッグデータフレームワークとAIフレームワークの統合は簡単ではありません。アプリケーション開発、データ取得、クリーニング、分析、展開のプロセスでは、多くのビッグデータと AI フレームワークが関係します。主要なプロセスでデータのセキュリティとプライバシーを確保する必要がある場合、さまざまなセキュリティテクノロジ、暗号化テクノロジ、キー管理テクノロジなど、多くのリンクとフレームワークが関係するため、変換と移行のコストが大幅に増加します。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

2. ビッグデータ AI プライバシーコンピューティング

2 年前、業界のビッグデータと AI アプリケーションに関連する顧客とのコミュニケーションの過程で、ユーザーの問題点をいくつか収集しました。一般的なパフォーマンスの問題に加えて、ほとんどのお客様が最初に懸念するのは互換性の問題です。たとえば、一部の顧客はすでに数千、さらには数万のノードを持つクラスターを所有していますが、一部のモジュールやリンクを安全に処理し、プライバシーコンピューティングテクノロジを適用してプライバシー保護機能を実現する必要がある場合は、既存のアプリケーションに変更を加える必要がある場合があります。、あるいはまったく新しいフレームワークやインフラストラクチャを導入することさえありますが、これらの影響は、お客様が考慮する必要がある主な問題です。第二に、顧客はデータ規模がセキュリティ技術に与える影響を考慮し、導入された新しいフレームワークや技術が大規模データの計算をサポートし、高い計算効率を実現できることを期待します。最後に、顧客はフェデレーテッドラーニングテクノロジーがデータアイランドの問題を解決できるかどうかを検討します。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

調査から得られたお客様のニーズに基づいて、 BigDL PPML ソリューションを開始しました 、主な目標は、従来の標準的なビッグデータおよび AI ソリューションを安全な環境で実行できるようにして、エンドツーエンドのセキュリティを確保することです。この目的のために、コンピューティングプロセスは SGX (ハードウェアレベル TEE) によって保護される必要があります。同時に、ストレージとネットワークが暗号化されていることを確認する必要があり、計算の機密性と整合性を確保するためにリンク全体がリモートで証明される必要があります (リモート署名とも呼ばれます)。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

#次は、Apache Spark を使用します。データフレームワークは、このソリューションの必要性を詳しく説明する例として使用されます#。 Apache Sparkは、ビッグデータAI分野でよく使われる分散コンピューティングフレームワークであり、ネットワークの暗号化や認証、TLSやAESによる通信やRPCの保護、主にストレージなどのセキュリティ関連の機能を既に備えています。ローカルシャッフルストレージも AES によって保護されていますが、最新バージョンの Spark でも平文計算しか実行できないため、計算に大きな問題があります。コンピューティング環境またはノードが侵害されると、大量の機密データが取得される可能性があります。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践 SGX テクノロジー

# は、Intel CPU を基盤機能としてソフトウェアとハードウェアを組み合わせたトラステッドコンピューティング環境テクノロジです。

ハードウェアレベルの信頼性を備えています。情報実行環境

攻撃対象領域が比較的小さい: システムの一部が侵害されても、CPU が安全であれば、プログラム全体のセキュリティは確保されます。
パフォーマンスへの影響はほとんどありません
十分な大きさのエンクレーブ (最大 1TB)
前述の Apache Spark アプリケーションシナリオに戻ります:

左側はコンピューティング環境が保護されていない状況を示しており、たとえ暗号化されたストレージを利用していても、平文計算の段階で攻撃を受ける限り、被害を受けるリスクがあります。データ漏洩。右側は Spark コミュニティによるいくつかの試みを示しています。SparkSQL に関連するいくつかの重要な手順を抽出し、ロジックのこの部分を SGX SDK で書き直すことで、パフォーマンスを最大化し、攻撃対象領域を最小限に抑えることができます。しかしながら、この方法の欠点も明らかであり、開発コストが高すぎ、コストが高すぎる。 SparkSQL のコアロジックを再構築するには、Spark を明確に理解する必要がありますが、同時にコードを他のプロジェクトで再利用することはできません。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

上記の欠点を解決するために、 LibOS ソリューションを使用します 、つまり、LibOS の中間層を通じて、開発と移行の困難さを軽減し、システム API 呼び出しを SGX SDK で認識できる形式に変換することで、一部の従来のアプリケーションのシームレスな移行を実現します。一般的な LibOS ソリューションには、Ant Group の Occlum、Intel の Gramine、Imperial College の sgx-lkl ソリューションなどがあります。上記の LibOS にはそれぞれ独自の機能と利点があり、SGX の使いやすさと移植性の問題をさまざまな方法で解決します。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

LibOS では、Spark を書き直す必要はありません。 Spark や既存のアプリケーションを変更することなく、LibOS を通じて Spark 全体を SGX に組み込むことができます。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

Spark の分散コンピューティングでは、次のことができます。配布はそれぞれ LibOS と SGX で保護され、ストレージ側はキー管理と暗号化ストレージを構成でき、実行者は暗号文データを取得し、SGX で復号化および計算します。プロセス全体は開発者にとって比較的影響を受けず、既存のアプリケーションへの影響はほとんどありません。

#ただし、スタンドアロンアプリケーションと比較すると、分散アプリケーションのセキュリティ問題もより複雑になります。攻撃者は、一部のオペレーティングノードを侵害したり、リソース管理ノードと共謀して、SGX 環境を悪意のあるオペレーティング環境に置き換える可能性があります。このようにして、鍵や暗号化されたデータが不正に取得され、最終的には個人データが漏洩する可能性があります。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

この問題を解決するには、

リモート認証技術を適用する必要があります。簡単に言うと、SGX で実行されるアプリケーションは証明書を提供でき、証明書は改ざんできません。証明書は、アプリケーションが SGX で実行されているかどうか、アプリケーションが改ざんされているかどうか、プラットフォームがセキュリティ標準を満たしているかどうかを検証できます。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践 #分散アプリケーションのリモート構成証明を実装するには 2 つの方法があります

。左側は比較的完全ですが大幅に変更されたソリューションで、ドライバー側とエグゼキューター側でリモート構成証明を実行するには、Spark をある程度変更する必要があります。もう 1 つの解決策は、サードパーティのリモート認証サーバーを通じて集中リモート認証を実装し、変更不可能な証明書を使用して攻撃者が制御するモジュールがデータを取得するのをブロックすることです。 2 番目のオプションでは、アプリケーションを変更する必要はありませんが、起動スクリプトの一部を変更するだけで済みます。

LibOS を使用すると、Spark を SGX で実行できますが、Spark を LibOS および SGX に適応させるには、やはり一定の時間がかかります。 . 人件費と時間コスト。ビッグデータAI分野におけるプライバシーコンピューティングの応用実践この目的を達成するために、私たちは PPML

のワンストップソリューションを開始しました。これにより、多くの手順が自動化され、シームレスな移行が実現され、移行コストが大幅に削減されます。

ワークフローの観点から見ると、このソリューションにはもう利点があります。つまり、データサイエンティストは根本的な変更を認識できず、クラスター管理者のみが SGX の展開と準備に参加する必要があります。データサイエンティストは、基盤となる環境が変化したことを意識することなく、通常どおりモデリングとクエリ作業を実行できます。これにより、既存のアプリケーションの互換性と移行の問題を十分に解決でき、データサイエンティストや開発者の日常業務が妨げられることはありません。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

以下は、PPML ソリューション全体の概要です。お客様のさまざまなニーズに応えるため、PPML がサポートする機能は過去 2 年間で継続的に拡張されてきました。たとえば、中間層のライブラリとフレームワークでは、Spark、Flink、Ray などの一般的なコンピューティングフレームワークがすべてサポートされていると同時に、PPML は機械学習、ディープラーニング、フェデレーテッドラーニング機能もサポートしており、暗号化ストレージと準同型暗号化をサポートし、エンドツーエンドの完全なリンクセキュリティを確保します。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

##03 アプリケーションの実践

次はいくつかのお客様のアプリケーション実践事例のうち、より有名なものは昨年の Tianchi Competition です。昨年のサブコンペでは、参加者はトレーニングとモデル推論のプロセスが SGX によって完全に保護されることを期待していましたが、PPML が提供する Flink 機能と Ant Group の LibOS プロジェクト Occlum を組み合わせることで、トレーニングとモデル推論を非表示にすることができました。アプリケーションレベルで。最終的には、コンテスト全体に 4,000 を超えるチームが参加し、数百台のサーバーが使用され、PPML が大規模な商用利用をサポートできることが証明されました。全体として、オペレーターは大きな変化を認識しませんでした。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

##同年の 9 月から 10 月にかけて、Korea Telecom はエンドツーエンドサービスを構築したいと考えていました。 BigDL と Flink に基づく安全なリアルタイムモデル推論環境には、より厳しいパフォーマンス要件があります。 Tianchi の経験を経て、Flink と SGX に基づく BigDL のリアルタイムモデル推論ソリューションはさらに成熟し、エンドツーエンドのパフォーマンス損失は 5% 未満であり、スループットも韓国通信の基本ニーズを満たしています。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

#Spark のパフォーマンステストも実施しました。結論として、たとえテストデータが数百 GB に達したとしても、PPML ソリューションが Spark を実行する場合、スケーラビリティとパフォーマンスの問題は発生しません。お客様のニーズに基づいて、SGX には不向きな IO 集中型アプリケーションである TPC-DS を特に選択しました。 TPC-DS は、一般的に使用される SQL ベンチマーク標準です。比較的高い IO 要件とコンピューティング要件があり、データ量が多い場合、大規模なディスク、メモリ、およびネットワーク IO が発生します。ハードウェアレベルの TEE として、SGX に出入りするデータを復号化および暗号化する必要があるため、データの読み取りおよび書き込みのコストは非 SGX のコストよりも高くなります。完全な TPC-DS テストの後、エンドツーエンド全体の損失は 2 回以内であり、顧客の期待に応えました。 TPC-DS ベンチマークを通じて、この最悪のケースでも、エンドツーエンド損失が許容範囲 (1.8) まで確実に低減できることを証明しました。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践 #ビッグデータアプリケーションのシームレスな移行を実現した後、一部のお客様とフェデレーテッドラーニングも試しました。 SGX は安全な環境を提供するため、フェデレーテッドラーニングプロセスにおける最も重要なサーバーとローカルデータのセキュリティ問題を解決できます。 BigDL が提供するフェデレーテッドラーニングソリューションと一般的なソリューションの間には大きな違いがあります。つまり、ソリューション全体が本質的に大規模データ用のフェデレーテッドラーニングソリューションです。このうち、各ワーカーの作業負荷やデータサイズは比較的大きく、各ワーカーは小さなクラスターに相当します。私たちは一部のお客様に対してこのソリューションの実現可能性と有効性を検証しました。

04 概要と展望

前述のように、2 年以上にわたるお客様とのコミュニケーションと協力の中で、私たちは次のことを発見しました。私たちはプライバシーコンピューティングとビッグデータ AI に関連するいくつかの問題点に到達しました。これらの問題点は、SGX などのセキュリティテクノロジによって解決できます。その中で、LibOS は互換性の問題を解決でき、SGX はセキュリティ環境とパフォーマンスの問題を解決でき、Spark または Flink のサポートはビッグデータと移行の問題を解決でき、フェデレーションラーニングはデータアイランドの問題を解決できます。 BigDL PPML は、上記のサービスを統合したワンストップのプライバシーコンピューティングソリューションです。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践

SGX と TEE の生態系は現在急速に発展しています。近い将来、TEE は使いやすさ、セキュリティ、パフォーマンスの点で大幅に改善されるでしょう。たとえば、Intel の次世代 TDX は OS サポートを直接提供でき、アプリケーションの互換性の問題を根本的に解決できます。オープンソースコミュニティも改善されています。機密コンテナのサポートにより、コンテナのセキュリティが確保され、アプリケーションの移行コストが大幅に削減されます。セキュリティの観点から見ると、TEE エコシステムのセキュリティをさらに強化するためのマイクロカーネルなどの取り組みも登場するでしょう。スケーラビリティの観点から、インテルとコミュニティはアクセラレータと IO デバイスのサポートも推進しており、それらを信頼できるドメインに組み込んでデータフローのパフォーマンスのオーバーヘッドを削減します。

ビッグデータAI分野におけるプライバシーコンピューティングの応用実践