首页 > 科技周边 > 人工智能 > DeepSeek释放3FS和Shmperpond框架

DeepSeek释放3FS和Shmperpond框架

William Shakespeare
发布: 2025-03-03 19:07:12
原创
785 人浏览过

DeepSeek Releases 3FS & Smallpond Framework

DeepSeek于2025年2月28日显着增强了开源功能,揭示了Fire-Flyer文件系统(3FS)和Smplearpond数据处理框架。 这些工具旨在彻底改变数据访问和处理,特别是用于AI培训和推断。

? #opensourceweek的第5天:3FS,所有DeepSeek数据访问的强大引擎

> fire-flyer文件系统(3FS) - 一个并行文件系统,最大化现代SSD和RDMA网络的带宽。

6.6 tib/s骨料读取吞吐量(180节点群集) ⚡3.66TIB/min…

- DeepSeek(@Deepseek_ai)2025年2月28日

目录的

>

> fire-flyer文件系统(3FS)

Shmperpond Framework
  • 快速启动:3FS和Smermpond
  • >故障排除和监视
  • 摘要
  • > fire-flyer文件系统(3FS)
  • 3FS是为现代SSD和RDMA网络构建的高性能,分布式文件系统。 它提供了强大的共享存储解决方案,简化了分布式应用程序开发。
  • 理解RDMA

远程直接内存访问(RDMA)绕过操作系统限制,从而在两台计算机的内存之间启用直接数据传输。这会导致更快,更有效的沟通。

键3FS功能

  • >无与伦比的性能和易用性:>
      6.6 tib/s骨料读取吞吐量(180节点群集)。
    • 3.66 tib/min吞吐量在Graysort基准(25节点群集)上。
    • > 40 GIB/S峰值吞吐量每个客户端节点for Kvcache查找。
  • >分解架构:
  • 将数千个SSD的吞吐量与数百个存储节点的网络带宽结合在一起。
      >为应用程序提供了局部性的存储访问。>
    • 鲁棒一致性:
  • >使用分配查询(CRAQ)采用链复制,以实现强大的一致性,简化了应用程序编码。
    • 标准文件接口:
  • >使用基于交易键值商店的无状态元数据服务(例如FoundationDB)。 维护熟悉的文件接口,消除了对新API学习的需求。
    • >支持的工作负载
  • 数据制备:
有效地管理数据分析管道中的大量中间输出。

>
    > dataLoader:
  • >启用跨计算节点训练样本的随机访问,消除预摘要或数据集随机改组。
  • >检查点:
  • 支持大规模训练的高通量平行检查点。 推理的
  • kvcache:
  • 提供了具有成本效益的高通量替代基于DRAM的基于DRAM的替代品,其容量显着增加。 >性能基准
  • 广泛的测试验证了3FS性能。 大型集群的读取压力测试即使在同时进行培训工作流量。 Shmperpond Framework 天文,旨在补充3FS,是一个轻巧的分布式数据处理框架。它使用DuckDB作为计算引擎,并在分布式文件系统(例如3FS)上以镶木格式存储数据。
  • 钥匙太理庞德特征

高性能: duckdb提供了用于有效数据处理的本地级别性能。>

可伸缩性:

通过高性能分布式文件系统处理PETABYTE尺度数据,而无需内存。

简单:

由于缺乏长期服务或复杂的依赖性而易于部署和维护。>>>>>>

    有效的数据处理:分类大数据集的两相方法可提高性能和效率(例如,在30分钟内的8,192个分区中排序110.5 TIB)。
  • 无缝3FS集成:利用3FS的高吞吐量和强大的一致性。
  • 快速启动:3FS和Smermpond 3fs安装
  • 克隆存储库并安装依赖项:
    1. git clone https://github.com/deepseek-ai/3fs
    2. cd 3fs
    3. git submodule update --init --recursive
    4. ./patches/apply.sh

    请咨询3FS文档以获取更多详细信息。

    天短快速启动

    • 确保安装Python 3.8。

    • >安装Skermpond:

      pip install smallpond

    • 初始化天简会:

      import smallpond; sp = smallpond.init()

    • >加载镶木木:

      df = sp.read_parquet("path/to/dataset/*.parquet")>

    • 重新分配数据(示例):

      • df = df.repartition(3)
      • df = df.repartition(3, by_row=True)
      • df = df.repartition(3, hash_by="host")
    • 变换数据(示例):

      • df = df.map('a b as c')
      • df = df.map(lambda row: {'c': row['a'] row['b']})
    • 保存数据:

      df.write_parquet("path/to/output/dataset.parquet")

    • 跑步的工作:

      sp.run(df)

    >故障排除和监视

    Smallpond提供监视和调试工具。日志分析有助于解决执行问题。 可以通过官方支持渠道获得全面的文档,教程和用例。

    摘要

    > 3FS和Smermpond的开源释放代表了数据处理的重大进步。他们的高性能,易用性以及一致性增强了开发人员和研究人员的能力。 这些工具为现代,数据密集型应用程序提供了强大的基础架构。

以上是DeepSeek释放3FS和Shmperpond框架的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板