搜索

没有相关内容~

如何使用Llama Logs显示和调试NodeJS错误？
本篇文章给大家介绍一下Node开发神器--Llama Logs，使用Llama Logs实时可视化Node错误。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。
2020-11-25评论:0访问次数:3166
32卡176%训练加速，开源大模型训练框架Megatron-LLaMA来了
淘天集团和爱橙科技于9月12日正式发布了开源的大模型训练框架——Megatron-LLaMA。该框架的目标是使技术开发者能够更方便地提升大语言模型的训练性能，降低训练成本，并与LLaMA社区保持兼容性。测试结果显示，在32卡训练上，与在HuggingFace上直接获取的代码版本相比，Megatron-LLaMA能够实现176%的加速；在大规模训练上，Megatron-LLaMA几乎线性扩展，且对网络不稳定表现出较高的容忍度。目前，Megatron-LLaMA已在开源社区上线开源地址：https:
2023-09-14评论:0访问次数:247
LLaMA模型惨遭泄漏，Meta版ChatGPT被迫「开源」！GitHub斩获8k星，评测大量出炉
ChatGPT角逐之战愈演愈烈。前几周，Meta发布了自家的大型语言模型LLaMA，参数量从70亿到650亿不等。论文中，仅用1/10参数的LLaMA（130亿）在大多数基准测试下超越了GPT-3。对于650亿参数的LLaMA，则与DeepMind的Chinchilla（700亿参数）和谷歌的PaLM（5400亿参数）旗鼓相当。虽然Meta声称LLaMA是开源的，但还需要研究人员申请并进行审核。然而万万没想到的是，刚发布没几天，LLaMA的模型文件就提前泄露了。那么，问题来了，这究竟是故意的还是
2023-04-12评论:0访问次数:1043
淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA
9月12日，淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA，旨在让技术开发者们能够更方便的提升大语言模型训练性能，降低训练成本，并且保持和LLaMA社区的兼容性。测试显示，在32卡训练上，相比HuggingFace上直接获得的代码版本，Megatron-LLaMA能够取得176%的加速；在大规模的训练上，Megatron-LLaMA相比较32卡拥有几乎线性的扩展性，而且对网络不稳定表现出高容忍度。目前Megatron-LLa
2023-09-19评论:0访问次数:236
GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？
中国人民大学的研究人员发现，Llama等因果语言模型遇到的“逆转诅咒”可以归咎于next-tokenprediction+causallanguagemodel的固有缺陷。他们还发现，GLM采用的自回归填空的训练方法在应对这种“逆转诅咒”时表现更为稳健通过将双向注意力机制引入Llama模型进行微调，该研究实现了对Llama的“逆转诅咒”的缓解。该研究指出，目前流行的大型模型结构和训练方式存在很多潜在问题。希望有更多的研究人员能够在模型结构和预训练方法上进行创新，以提升智能水平论文地址：https
2023-11-18评论:0访问次数:216

更多杂文

如何使用Llama Logs显示和调试NodeJS错误？

32卡176%训练加速，开源大模型训练框架Megatron-LLaMA来了

LLaMA模型惨遭泄漏，Meta版ChatGPT被迫「开源」！GitHub斩获8k星，评测大量出炉

淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？

php.cn