1. Hadoop的思想之源:Google 2. Google的低成本之道 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路) 大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务 全世界多个数据中心,有些附带发电厂 运营商向Google倒付费 3. Googl
不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务
全世界多个数据中心,有些附带发电厂
运营商向Google倒付费
1) 大量的网页怎么存储
2) 搜索算法
3) Page-Rank计算问题
1) 大量的网页怎么存储
存储网页在内存,而不在硬盘上。但是内存在一旦断电时数据就会丢失,Google采用方式为大量冗余。
2) 搜索算法
采用倒排索引。
基本思路:一般在文档集合里会有很多文档包含某个单词,每个文档会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引项(Posting),包含这个单词的一系列倒排索引项形成了列表结构,这就是某个单词对应的倒排列表。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。
3) Page-Rank计算问题
Page-Rank:这是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金”的关键算法,这个算法成就了今天的Google
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
4) Map-Reduce的思想:计算PR值。
1) GFS
Hadoop的HDFS思想基本与GSF思想一致
2) Map-Reduce
Hadoop中也有MapReduce,其思想与Google的MapReduce思想基本一致
3) Bigtable
对应Hadoop的HBase。
1) GFS:为上层提供高效的非结构化存储服务
GFS 也就是 google File System,google公司为了存储海量搜索数据而设计的专用文件系统。它是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
2) Map-Reduce:是一种并行计算的编程模型,用于作业调度
3) BigTable:提供结构化数据服务的分布式数据库
BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库,BigTable是非关系的数据库,是一个稀疏的、分布式的、持久化存储的多维度排序Map。