用于大数据的并查集（基于HBase）的java类

原创: 2016-06-07 16:28:00 795浏览

在做推荐系统的时候想查看原始数据集中自然存在的类别有多少种，即找到一些子集，这些子集属于原始数据集，子集之间没有任何关联，而子集内部所有数据都有直接或间接的关联。首先考虑的是由于数据规模，读入内存是不可能的，所以要借助硬盘（虽然很不情愿）

在做推荐系统的时候想查看原始数据集中自然存在的类别有多少种，即找到一些子集，这些子集属于原始数据集，子集之间没有任何关联，而子集内部所有数据都有直接或间接的关联。

首先考虑的是由于数据规模，读入内存是不可能的，所以要借助硬盘（虽然很不情愿）。既然是借助硬盘，那就要文件存取。而又由于在处理过程中需要快速的查找数据是否存在于某个集合内和将数据集合关联等操作，选择使用并查集。

这样选择之后算是有一个解决方案了，但是还需要最后一个关键的部分，就是需要建立文件索引和缓存机制以便快速进行合并和查询过程。这里选择使用的工具还是最趁手的hbase，很好的解决这两个问题。

这个类主要解决的问题就是原始数据的聚类，有关联的聚在一起。核心的两个方法是：

public byte[] findSet(byte[] pos);
public void union(byte[] pos1, byte[] pos2);

其中还有一个

public byte[] findSet(byte[] pos)

是递归实现。两个方法都使用了路径压缩进行优化。union()方法的两个参数有顺序要求，其作用是后者集合连接到前者集合的根节点。

最后，计算的并行是使用MapReduce计算框架。

package recommendsystem;
?
import java.io.IOException;
import java.lang.reflect.Array;
?
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;
?
public class UnionFindSet {
	private Configuration _conf;
	private HBaseAdmin _hbAdmin;
	private HTable _unionTable;
?
	public static void main(String[] args) throws IOException {
		UnionFindSet ufs = new UnionFindSet("test");
		ufs.union(Bytes.toBytes("7"), Bytes.toBytes("8"));
		ufs.union(Bytes.toBytes("5"), Bytes.toBytes("9"));
		ufs.union(Bytes.toBytes("3"), Bytes.toBytes("7"));
		ufs.union(Bytes.toBytes("4"), Bytes.toBytes("6"));
		ufs.union(Bytes.toBytes("1"), Bytes.toBytes("7"));
		for (int i = 1; i 
    
        原文地址：用于大数据的并查集（基于HBase）的java类, 感谢原作者分享。

用于数据查集基于 HBase java 在做推荐系 PHP课程 HTML视频教程 CSS视频 JS视频教程 Vue视频教程

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

上一条：[ Ruby on Rails ] 簡單好用的驗證碼Gem – Redis Captcha 下一条：VPS上搭建Nginx+PHP+MongoDB环境

查看更多

热门课程

Laravel 9 学习正当时—保姆级教程，想学不会都难！

￥229
￥279

已抢66471个
抢
前端基础到实战（HTML5+CSS3+ES6+NPM）

￥800
￥1200

已抢37116个
抢
PHP基础到实战（PHP+MySQL）

￥800
￥1200

已抢20575个
抢
PHP入门到实战消息队列RabbitMQ

￥59
￥99

已抢2532个
抢
在线商城系统开发（Laravel实战五）

￥159
￥299

已抢18993个
抢

打开APP，随时随地在线学习！

用于大数据的并查集（基于HBase）的java类

相关文章

￥229

￥800

￥800

￥59

￥159