• 技术文章 >常见问题

    Hadoop是用于分布式计算的,它是什么东西

    (*-*)浩(*-*)浩2019-11-18 14:01:23原创904

    hadoop是什么?

    (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。 ( 推荐学习:web前端视频教程

    Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。

    用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。

    (2)Hadoop就是一个分布式计算的解决方案.

    hadoop能做什么?

    hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;

    淘宝搜索中 的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。

    淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。

    Hadoop 由许多元素构成。

    其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。

    HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

    以上就是Hadoop是用于分布式计算的,它是什么东西的详细内容,更多请关注php中文网其它相关文章!

    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    专题推荐:Hadoop
    上一篇:计算机结束时断开终端的连接属于什么 下一篇:ae播放键在哪
    大前端线上培训班

    相关文章推荐

    • Java网络爬虫在hadoop中的实现方法介绍• hadoop集群服务器的安装配置教程(图文)• Hadoop为什么要用java• apache hadoop是什么

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网