Linyu open source, le premier système d'analyse de données sécurisé multipartite de qualité industrielle SCQL : informatique privée « facile à utiliser

Le premier système d'analyse de données sécurisé multipartite de qualité industrielle SCQL open source de Linyu a comblé le vide du secteur et étendra davantage les liens de collaboration en matière de sécurité des données et élargira les scénarios de circulation de la valeur des données.

L'essor des grands modèles a une fois de plus profondément reconnu l'importance des données en tant que nouveau facteur de production. En tant que voie importante pour équilibrer l'utilisation et la sécurité des données, l'informatique confidentielle a encore souligné sa valeur académique et sa valeur applicative. Ces dernières années, sous l’impulsion des politiques et de la demande du marché, la technologie informatique privée et l’industrie se sont développées régulièrement et ont été appliquées dans de nombreux domaines tels que la finance, les communications, Internet, les affaires gouvernementales et les soins médicaux. Mais dans l’ensemble, en raison de problèmes tels que les seuils techniques et les coûts de construction, il existe de véritables applications de production à grande échelle, mais leur nombre est très restreint.

Le 29 mars, lors de la première journée portes ouvertes de la communauté Open Source Hidden Language, le framework open source Hidden Language SecretFlow a publié une nouvelle version, lançant une fonctionnalité importante que l'industrie attend avec impatience : le système d'analyse de données sécurisé multipartite SCQL. (Langage de requête collaboratif sécurisé). Il s'agit de la première application du secteur à appliquer SQL à la technologie d'informatique sécurisée multipartite (MPC), réalisant des fonctions d'analyse de données sécurisées multipartites de niveau industriel. Elle est actuellement open source dans la communauté Linguo GitHub et est ouverte aux développeurs du monde entier. le monde gratuitement.

Linyu open source, le premier système danalyse de données sécurisé multipartite de qualité industrielle SCQL : informatique privée « facile à utiliser » comme lécriture de SQL

Wang Lei, responsable du framework Hidden Language SecretFlow, a publié le système Hidden Language SCQL lors de la journée portes ouvertes de la communauté Open Source Hidden Language

C'est également après que l'équipe Hidden Language a passé trois ans et a traversé plusieurs cycles de vérification technique pour répondre aux scénarios d'application industrielle en termes de performances et de sécurité. Les fonctions importantes du produit publiées par Caiyuan espèrent étendre davantage le lien de collaboration en matière de sécurité des données et élargir les scénarios de circulation de la valeur des données, en particulier pour répondre aux besoins d'analyse des données. des institutions à longue traîne et de la majorité des institutions de petite et moyenne taille.

Wang Lei, responsable du cadre linguistique et directeur général du département de technologie informatique intelligente de confidentialité d'Ant Group, a déclaré dans une interview exclusive avec Machine Heart que lorsque l'informatique de confidentialité entre dans l'industrie pour résoudre des problèmes pratiques pour les utilisateurs à grande échelle, par rapport à Analyse des données d'IA, les scénarios d'application de BI seront plus larges. SQL est actuellement l'outil d'analyse BI le plus connu. Linyu a lancé cette fois le système SCQL dans l'espoir que les utilisateurs puissent comprendre et utiliser la technologie informatique privée à faible coût sur la base de flux de travail familiers.

Actuellement, l'informatique privée entre dans une nouvelle étape. La conformité en matière de sécurité de la technologie monopoint a été vérifiée par des pilotes, en particulier depuis la promulgation des 20 articles sur les données, la combinaison du big data et de l'informatique privée a été réalisée. La disponibilité de la BI informatique de confidentialité a été atteinte. Et la facilité d'utilisation, l'abaissement du seuil technique est devenu le principal défi à l'étape actuelle. Ce n'est qu'en continuant à élargir l'étendue et la profondeur des applications technologiques que nous pourrons véritablement entrer dans l'ère future de densification globale. d’éléments de données à grande échelle.

Wang Lei a déclaré que l'équipe Lingu a réalisé des avancées techniques dans l'analyse du langage SQL, l'optimisation des performances informatiques MPC et la sécurité de l'inversion des résultats. Elle a fourni de très bonnes nouvelles solutions à certains problèmes et a réalisé un travail d'ingénierie efficace. résultats. Il a également souligné qu'il existe des problèmes plus difficiles et plus ouverts et espère que davantage de personnes participeront à la création d'une communauté informatique privée open source et exploreront conjointement davantage de scénarios d'application.

Langage SCQL : le premier système open source de qualité industrielle

Système d'analyse de données de sécurité multipartite

Selon le "Chinese Enterprise Intelligence Maturity Report (2022)" publié par l'Académie chinoise des technologies de l'information et des communications en janvier de cette année , 84 % des entreprises en sont actuellement au stade de base de la construction numérique et sont encore loin de réaliser un fonctionnement intelligent et un développement innovant. Pour cette partie de l’entreprise, les besoins métier en matière de BI sont nombreux.

La plupart des technologies BI actuellement disponibles sont capables de protéger les données lors de leur stockage ou de leur transmission, mais ne disposent pas de la fonction permettant de protéger la sécurité du processus de calcul des données. Pour les organisations ayant des exigences liées à la confidentialité et à la sécurité, cela ne fait qu'élargir la portée de cette fonctionnalité. technologies BI traditionnelles. La limite peut être appliquée à davantage de scénarios. À mesure que la commercialisation des éléments de données progresse, il existera de sérieuses lacunes dans l’analyse BI informatique de la confidentialité.

Dans ce contexte, Linyu a lancé le projet SCQL, qui combine le SQL le plus couramment utilisé dans l'analyse BI avec l'informatique sécurisée multipartite (MPC) dans l'informatique de confidentialité, comme moyen d'apporter l'informatique de confidentialité à l'industrie et dans l'ensemble du secteur. et un écosystème complexe. La première étape vers une application à moyenne et grande échelle.

Concentrez-vous sur le scénario d'analyse conjointe des données multipartites car par rapport à la voie technique Trusted Execution Environment (TEE), elle nécessite une racine matérielle de confiance, et la maturité actuelle de la localisation a encore besoin de temps pour être vérifiée et peaufinée. -party Secure Computing (MPC) La voie technique présente des avantages uniques : un contrôle plus fort des données, aucune dépendance à l'égard d'un matériel spécial, etc. En outre, dans certains scénarios où les données d'une seule partie sont relativement minces, la qualité de l'analyse des données peut également être améliorée en élargissant les échantillons ou les dimensions des données, c'est-à-dire en combinant les données de plusieurs parties pour une prise de décision conjointe et, finalement, un effet commercial. analyse, mises à niveau de la stratégie commerciale et innovation du modèle commercial. Obtenez de meilleurs résultats. Par exemple :

Dans des scénarios financiers : coopération entre différentes institutions financières, sans divulguer la confidentialité des utilisateurs, en interrogeant le nombre de prêts, les montants des prêts, les enregistrements fiables et d'autres règles pour identifier si les clients potentiels sont des clients à haut risque
Scénario de marketing : coopération entre ; différentes plates-formes pour obtenir des profils d'utilisateurs complémentaires, analyser les préférences des utilisateurs en matière de contenu et améliorer l'activité des utilisateurs grâce à des recommandations de contenu plus raisonnables
Scénario médical : différents hôpitaux ou même différents services au sein d'un même hôpital analysent conjointement les dossiers médicaux des patients et fournissent une prise de décision ; des conseils pour l’enregistrement ou le pré-diagnostic, et améliorer l’efficacité des services médicaux.

Cependant, la réalisation de la combinaison de SQL et MPC présente de grands défis techniques. Tout d'abord, SQL est une architecture complexe. Lorsqu'il est utilisé dans des scénarios informatiques privés, la façon de résoudre la complexité de la conception de l'architecture implique l'analyse du langage SQL, et le seuil technique pour cette analyse est très élevé. Deuxièmement, dans les scénarios d'utilisation de SQL, les utilisateurs ont des exigences très élevées en matière de temps de réponse après la soumission d'une requête et s'attendent généralement à voir les résultats immédiatement. Cependant, les performances informatiques de MPC sont très faibles. Comment optimiser cela ? Troisièmement, comment éviter que le langage de requête SQL flexible interroge des informations sensibles que les utilisateurs ne souhaitent pas voir.

Basé sur le dispositif SPU abstrait sous-jacent du noyau technologique MPC (SecretFlow Processing Unit, SPU en abrégé, qui est l'unité de calcul dense de la plate-forme Lingu et fournit des services informatiques sécurisés pour le framework Lingu), l'équipe Linyu a mis en œuvre de manière innovante le système d'analyse de données sécurisé multipartite SCQL. SCQL prend en charge le langage de requête de type SQL. Ce langage hérite de la popularité, de la facilité d'apprentissage et de la grande maturité de SQL en tant que langage d'analyse de données couramment utilisé. Il peut compléter les statistiques d'analyse conjointe sans que les utilisateurs perçoivent à peine la sémantique de l'informatique sécurisée multipartite. . Résultat généré.

L'architecture SCQL est illustrée dans la figure ci-dessous. Elle est divisée en deux parties. La SCDB supérieure peut être considérée comme la base de données SCQL, qui est chargée de traduire la requête en un graphe d'exécution d'état dense et de l'envoyer au moteur SCQL. déployé sur le participant aux données pour l'exécution ; le moteur SCQL est le moteur d'exécution de SCQL. Il coopérera avec le moteur SCQL des autres participants pour terminer l'exécution du graphe d'état dense et rapporter les résultats à SCDB.

Linyu open source, le premier système danalyse de données sécurisé multipartite de qualité industrielle SCQL : informatique privée « facile à utiliser » comme lécriture de SQL

Concrètement, les utilisateurs externes peuvent directement lancer une requête SQL traditionnelle. Cette requête passera d'abord par Parser et sera convertie en un arbre de syntaxe abstraite, puis via Planner, elle deviendra un plan Logique. Le plus grand défi va du plan logique au graphe d'exécution, où le traducteur doit effectuer une sélection du protocole optimal sous plusieurs contraintes. C'est une clé pour effectuer des calculs SQL privés, car il existe des contraintes de sécurité dans l'ensemble du calcul, qui. nécessite de prendre en compte de manière exhaustive le type de données, la source de données et l'état des données, et l'état des données continuera à migrer et à changer avec le processus informatique.

Ici, l'équipe Linyu a implémenté de manière innovante le mécanisme CCL (Column Control List) comme une solution ingénieuse pour la flexibilité et les fonctionnalités SQL dans des scénarios informatiques sécurisés multipartites. CCL fournit un outil auxiliaire qui permet aux propriétaires de données d'utiliser CCL pour décrire les contraintes sur l'utilisation de chaque colonne de données avant un examen préalable. Ce n'est que si les contraintes sont strictement respectées que le moteur d'analyse des données l'exécutera.

Linyu open source, le premier système danalyse de données sécurisé multipartite de qualité industrielle SCQL : informatique privée « facile à utiliser » comme lécriture de SQL

Actuellement, 6 types de contraintes sont fournis, et le cadre de Lingo continuera d'être amélioré et affiné à cet égard à l'avenir.

En résumé, la solution Linguistic SCQL a fait de très bons efforts pour relever des défis techniques tels que l'exactitude, la rapidité et la sécurité, et a réalisé :

Facile à utiliser et à intégrer : SCQL prend en charge le langage de requête de type SQL, facile à utiliser et peu coûteux pour démarrer. De plus, SCQL fournit une interface API simple et facile à utiliser, facile à intégrer et à encapsuler, et prend en charge les sources de données couramment utilisées (prend actuellement en charge MySQL et prévoit de prendre en charge CSV, Postgres, Hive et d'autres sources de données dans le futur), qui peut répondre aux besoins d'analyse collaborative des données multipartites de l'entreprise
Mécanisme d'autorisation des données fines : SCQL propose de manière innovante le mécanisme CCL (Column Control List), permettant aux parties de données d'autoriser comment leurs données sont utilisées et la granularité du contrôle peut être aussi fine que celle des champs de table de données (colonne) ;
Fonctions riches et scénarios flexibles : prend en charge la syntaxe et les fonctions SQL les plus couramment utilisées, qui peuvent répondre aux besoins d'analyse conjointe de la plupart. scénarios ;
Répondre aux exigences réelles de performances de production : Sous le principe de la protection de la confidentialité des données, avec l'idée d'optimisation de réduire autant que possible la quantité de calcul dans les états denses, une optimisation à plusieurs niveaux a été réalisée.

Actuellement, Ant Insurance utilise déjà la fonction Lingo SCQL en coopération avec des compagnies d'assurance pour des scénarios de vérification de réclamation. Basé sur la plate-forme technologique de réclamation et le cadre Lingo, le système de réclamation intelligent « Claims Brain » a été créé. Dans l'ensemble du système, la solution d'analyse conjointe des données multipartites est l'un des modules de base, aidant les compagnies d'assurance et leurs données médicales externes. Les éditeurs de logiciels indépendants collectent des données originales sans quitter la zone locale et effectuent des analyses conjointes en partant du principe que la valeur des données est protégée.

Dans ce plan, la compagnie d'assurance fournit des « données de réclamation de l'utilisateur », qui incluent le type de maladie assurée, la durée d'effet de la police, l'heure de l'accident, etc. De plus, les « règles d'exemption pour maladies préexistantes » fournies par l'assurance La société inclut également le type de maladie assurée et les règles d'exemption correspondantes. ISV fournit des « données sur le traitement médical des utilisateurs », notamment le type de maladie diagnostiquée, la durée du traitement et d'autres dimensions. Dans l'analyse conjointe, la description et l'exécution de tâches d'analyse conjointe peuvent être réalisées grâce à la combinaison de clauses « SELECT FROM », « INNER JOIN », « Where » et d'expressions de comparaison, tout en garantissant la confidentialité des données des compagnies d'assurance et des éditeurs de logiciels indépendants. , analysez si l'utilisateur remplit les conditions de réclamation.

Cette solution d'analyse conjointe de données multipartites personnalisée pour l'assurance maladie peut aider à découvrir efficacement des indices positifs, à réduire le risque de réclamations erronées et à contrôler les coûts d'exploitation des réclamations grâce à une enquête et un examen numériques.

À l'avenir, la communauté open source Linyu publiera également des tâches de co-construction SCQL, notamment l'enrichissement des sources de données (comme la prise en charge des fichiers csv), l'amélioration de la grammaire et des fonctions, l'amélioration de la facilité d'utilisation, etc. Tout le monde est invité à continuer à faites attention à la communauté Linyu GitHub, et ajoutez même votre plan de co-construction est soumis via une pull request et devient une partie intégrante de la tâche de co-construction. Nous continuerons à construire et à améliorer cette fonction ensemble.

Élargissez les scénarios d'application de la circulation des données

Besoin d'une informatique de confidentialité facile à utiliser et à utiliser

Wang Lei estime que la technologie et le marché actuels de l'informatique de confidentialité en sont encore à leurs balbutiements et que l'industrie n'a pas suffisamment compréhension de la technologie informatique de confidentialité. Linyu espère établir une référence universelle et facile à utiliser et contribuer à activer des applications dans l'ensemble du secteur informatique privé. Bien sûr, "la sécurité est au cœur de l'informatique confidentielle. Ce n'est que dans la mesure où elle garantit la sécurité que nous pouvons parler de précision, de performances et de facilité d'utilisation. Sinon, cela peut être réalisé avec d'autres technologies." le développement du jargon.

Wang Lei a expliqué qu'Ant Group a commencé à explorer l'informatique confidentielle en 2016, et a pratiqué et réfléchi à travers des recherches internes sur les entreprises et l'industrie. Au cours de ce processus, les techniciens ont découvert qu'il existe de nombreuses voies technologiques informatiques de confidentialité et différentes architectures. Par conséquent, une architecture informatique de confidentialité idéale doit d'abord être complète, prendre en charge les cadres technologiques traditionnels et prendre en compte le développement de nouvelles technologies. Deuxièmement, afin de faciliter une itération continue, l’architecture doit être découplée de la couche inférieure vers la couche supérieure. En outre, l'architecture doit également avoir une bonne conception en couches pour séparer la sécurité et les algorithmes, faciliter l'application et augmenter l'étendue des applications et le seuil de participation de la technologie informatique de confidentialité. L'intégration commerciale et les capacités de production à grande échelle sont également importantes, nécessitant une bonne conception d'interface et des capacités de production à grande échelle, telles que les niveaux de gris, la restauration, l'expansion élastique et la gestion multi-versions.

Dans le cadre de ce concept, le framework Lingo SecretFlow est proposé comme un cadre informatique général de confidentialité, adhérant aux principes suivants pour rendre le cadre le plus inclusif et évolutif pour faire face au développement des futures technologies et applications informatiques de confidentialité.

Exhaustivité : prend en charge une variété de technologies informatiques de confidentialité et peut être assemblé de manière flexible pour répondre aux besoins de différents scénarios.
Transparence : Construisez un cadre technique unifié, essayez de rendre la technologie sous-jacente itérative et transparente pour la couche supérieure, avec une cohésion élevée et un faible couplage.
Ouverture : des personnes ayant des orientations professionnelles différentes peuvent facilement participer à la construction du cadre et accélérer conjointement le développement de la technologie informatique de confidentialité.
Connectivité : les données des scénarios pris en charge par différentes technologies sous-jacentes peuvent être connectées les unes aux autres.

Le cadre Lingo prend en charge les principales voies technologiques informatiques de confidentialité pour mieux s'adapter aux besoins de différents scénarios. Cela facilite également l'intégration et la migration de plusieurs voies technologiques et l'apprentissage des forces de chacun. Dans le même temps, à un niveau de planification plus élevé, Linyu conçoit une solution technique pour prendre en charge la « séparation des trois droits » de propriété des éléments de données, de droits d'utilisation et de droits d'exploitation afin de réaliser techniquement la propriété des données proposée dans les vingt articles sur les données. L'idéologie directrice de la « séparation des trois droits » : droits, droits d'usage et droits de gestion.

L'informatique de confidentialité n'est pas seulement une astuce sophistiquée, mais une véritable réflexion sur ce que veut l'industrie. L'équipe de Wang Lei a réfléchi à la manière de fournir des solutions plus sûres, plus efficaces, plus performantes et plus flexibles. Actuellement, les applications à grande échelle du secteur sont principalement divisées en deux catégories : la BI et l'IA peuvent être subdivisées en de nombreuses sous-catégories, telles que l'analyse de données SQL traditionnelle et l'analyse de données basée sur Python, ainsi que le traitement du Big Data et le traitement par lots. traitement, etc Le secteur de l’apprentissage automatique préservant la confidentialité pour les scénarios d’IA est désormais relativement mature et il existe de nombreuses solutions et produits techniques optionnels sur le marché.

Je pense à ces institutions de données à petite échelle, qui ont tendance à commencer avec des volumes de données plus petits, de l'ordre de millions ou de dizaines de millions, car un tel traitement peut couvrir de nombreux scénarios d'application et est également faible en termes d'entrée et de sortie.

"Étant donné que le niveau de numérisation des petites et moyennes organisations en est à ses débuts et que la quantité de données en est au stade de petits échantillons, toute méthode d'apprentissage automatique est inutile et non rentable, et l'analyse BI utilisant le langage SQL car la méthode principale est la solution la plus réalisable."

Pour les scénarios de données à grande échelle, l'analyse des données BI est également une méthode d'analyse indispensable et importante. « Du Big Data aux Small Data, SCQL peut répondre aux besoins d'analyse dense de la sécurité des données », a souligné Wang Lei.

Bien sûr, pour les applications d'IA, le jargon continuera à itérer. Par exemple, si l'algorithme XGB est largement utilisé dans l'industrie, une version plus rapide sera publiée.

Wang Lei a déclaré que la tendance future de l'informatique confidentielle doit inclure l'intégration technologique, qui inclut non seulement l'intégration entre différents domaines techniques, mais également l'intégration entre les outils techniques. Du point de vue de l'ensemble de la pile technologique informatique de confidentialité, la solution finale doit être un échantillon de plusieurs technologies pour résoudre divers problèmes. En fonction de l'applicabilité du scénario de déploiement et des exigences de sécurité, des technologies informatiques de confidentialité pour différents scénarios sont sélectionnées.

Lingyu espère utiliser la technologie pour renforcer la confiance de l'industrie dans l'informatique confidentielle en tant qu'infrastructure de circulation d'éléments de données, et soutenir conjointement diverses applications via le modèle de hub et le modèle de pipeline, en vue de soutenir l'expansion à grande échelle de l'ensemble de l'industrie en l'avenir.

Linyu open source, le premier système danalyse de données sécurisé multipartite de qualité industrielle SCQL : informatique privée « facile à utiliser » comme lécriture de SQL

L'argument open source a deux objectifs : l'un est d'espérer que davantage de personnes pourront utiliser l'informatique privée ; l'autre est d'espérer que davantage de personnes pourront construire une communauté ensemble. À l'heure actuelle, le nombre de personnes participant à la co-construction est relativement faible. Linyu prévoit d'augmenter l'orientation de la co-construction et d'améliorer le processus de co-construction cette année. Nous sommes impatients d'explorer activement davantage de possibilités en matière d'informatique confidentielle avec tout le monde.

Site officiel secret :

https://www.secretflow.org.cn

Communauté secrète :

https://github.com/secretflow

https:// gîtee .com/secretflow

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!