Redis HyperLogLog utilise un algorithme probabiliste, l'algorithme HyperLogLog, pour estimer la cardinalité. En utilisant un ensemble de fonctions de hachage et un tableau de bits de longueur m, HyperLogLog est capable d'estimer le nombre d'éléments uniques dans un ensemble.
Dans l'algorithme HyperLogLog, chaque élément est haché, et après avoir converti la valeur de hachage en binaire, chaque élément est noté en fonction du nombre de 1 dans le préfixe de chaîne binaire. Par exemple, si la valeur de hachage d'un élément est 01110100011, alors le nombre de 1 dans le préfixe est 3, donc dans l'algorithme HyperLogLog, le score de cet élément est 3.
Une fois les scores de tous les éléments comptés, prenez l'inverse de chaque score (1/2^n), puis ajoutez ces réciproques et prenez l'inverse, et vous obtiendrez une estimation de base de cette valeur. C'est le résultat de l'estimation de l'algorithme HyperLogLog.
L'algorithme HyperLogLog échange la taille de la longueur m du tableau de bits, compromettant la mémoire occupée par la structure des données et la précision de la valeur estimée (c'est-à-dire l'erreur estimée), et obtient un résultat cela prend moins de place dans les données et comporte des erreurs plus petites. Un équilibre parfait entre les degrés.
En bref, l'idée principale de l'algorithme HyperLogLog est basée sur des fonctions de hachage et des opérations sur les bits. En convertissant la valeur de hachage en un flux binaire et en comptant le nombre de 0 non significatifs, il peut rapidement estimer. grands ensembles de données Nombre de valeurs uniques. Grâce à l'algorithme hyperloglog, nous sommes en mesure d'identifier rapidement les pages Web en double dans de très grands ensembles de données.
Redis HyperLogLog est une structure de données qui peut être utilisée pour estimer le nombre d'éléments dans une collection. Elle peut conserver des quantités massives de données en utilisant. très peu de mémoire. Il est plus précis que les algorithmes d’estimation conventionnels et très rapide lors du traitement de grandes quantités de données.
Un exemple simple, nous pouvons utiliser HyperLogLog pour calculer le nombre d'IP indépendantes visitant le site Web Plus précisément, vous pouvez suivre les étapes suivantes :
PFADD hll:unique_ips 127.0.0.1
PFADD hll:unique_ips 127.0.0.1
为每次访问ip添加到unique_ips数据结构中: PFADD hll:unique_ips 192.168.1.1
获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips
可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。
需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。
1. 添加依赖,引入jedis依赖:
<dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.6.0</version> </dependency>
2.创建一个Jedis对象:
Jedis jedis = new Jedis("localhost");
3.向HyperLogLog数据结构添加元素:
jedis.pfadd("hll:unique_ips", "127.0.0.1");
4.获取计算集合中元素数量的近似值:
Long count = jedis.pfcount("hll:unique_ips"); System.out.println(count);
5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE
Obtenir une valeur approximative pour calculer le nombre d'éléments dans un ensemble : PFCOUNT hll:unique_ips
#🎜 🎜#
jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");
Config config = new Config(); config.useSingleServer().setAddress("redis://localhost:6379"); RedissonClient redisson = Redisson.create(config);
RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");
uniqueIps.add("127.0.0.1");
PFMERGE
pour fusionner la structure de données HyperLogLog : long approximateCount = uniqueIps.count(); System.out.println(approximateCount);
RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1"); RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2"); uniqueIps.mergeWith(uniqueIps1, uniqueIps2);
Compter les pages vues - Dans les applications Web, HyperLogLog peut être utilisé pour compter le nombre de visiteurs uniques pour chaque page. Utilisez la technologie HyperLogLog pour calculer le nombre moyen de visites sur cette page sur différentes périodes.
HyperLogLog a une utilité significative dans l'analyse du nombre d'utilisateurs dans les collections de Big Data. Une structure de données basée sur les probabilités est particulièrement efficace lorsqu'il s'agit d'ensembles de données tels que des identifiants d'utilisateur uniques. HyperLogLog n'enregistre qu'un nombre limité de valeurs de hachage après le hachage et est capable de déduire la taille de l'ensemble de données.
Compter les clics publicitaires - Pour l'analyse publicitaire sur un site Web ou une application, HyperLogLog peut être utilisé pour capturer le nombre de clics effectifs, c'est-à-dire le nombre de clics non dupliqués ou uniques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!