Deepseek a considérablement augmenté les capacités des open source le 28 février 2025, dévoilant le système de fichiers de vol de feu (3FS) et le cadre de traitement des données à petit. Ces outils sont conçus pour révolutionner l'accès et le traitement des données, en particulier pour la formation et l'inférence en IA.
? Jour 5 de #OpenSourceweek: 3FS, un moteur puissant pour tout accès aux données Deepseek.
Système de fichiers Fire-Flyer (3FS) - Un système de fichiers parallèle maximisant la bande passante des SSD modernes et des réseaux RDMA.
⚡ 6.6 Tib / s Aggrégat Lire le débit (cluster de 180 nœuds) ⚡ 3,66 tib / min…
- Deepseek (@deepseek_ai) 28 février 2025
3FS est un système de fichiers distribué haute performance construit pour les SSD modernes et les réseaux RDMA. Il offre une solution de stockage partagée robuste, simplifiant le développement d'applications distribuées.
> L'accès à la mémoire directe à distance (RDMA) contourne les limitations du système d'exploitation, permettant un transfert de données direct entre la mémoire de deux ordinateurs. Il en résulte une communication plus rapide et plus efficace.
Les tests approfondis valident les performances de 3FS. Un test de stress de lecture sur un grand cluster a atteint le débit de lecture globale de 6,6 TIB / s, même avec un trafic professionnel de formation simultané.
SallPond, conçu pour compléter 3FS, est un cadre de traitement des données léger et distribué. Il utilise DuckDB comme moteur de calcul et stocke les données au format parquet sur un système de fichiers distribué (comme 3fs).
Clone Les dépendances du référentiel et d'installation:
git clone https://github.com/deepseek-ai/3fs
cd 3fs
git submodule update --init --recursive
./patches/apply.sh
Consultez la documentation 3FS pour plus de détails.
Assurez-vous que Python 3.8 est installé.
Installez à petite étang: pip install smallpond
Initialiser une session à petite étang: import smallpond; sp = smallpond.init()
Chargez des données de parquet: df = sp.read_parquet("path/to/dataset/*.parquet")
Données de répartition (exemples):
df = df.repartition(3)
df = df.repartition(3, by_row=True)
df = df.repartition(3, hash_by="host")
Transformer les données (exemples):
df = df.map('a b as c')
df = df.map(lambda row: {'c': row['a'] row['b']})
Enregistrer les données: df.write_parquet("path/to/output/dataset.parquet")
Exécutez un travail à petite étang: sp.run(df)
SmallPond propose des outils de surveillance et de débogage. L'analyse des journaux aide à résoudre les problèmes d'exécution. La documentation complète, les tutoriels et les cas d'utilisation sont disponibles via les canaux de support officiels.
La version open source de 3FS et de SmallPond représente une progression significative dans le traitement des données. Leurs hautes performances, leur facilité d'utilisation et leur cohérence permettent aux développeurs et aux chercheurs. Ces outils fournissent une infrastructure puissante pour les applications modernes à forte intensité de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!