Count sketch

En informatique, le count sketch est une technique de réduction de dimensionnalité basée sur une structure de données probabiliste, permettant d'estimer avec un coût en mémoire limité le nombre d'apparitions des éléments les plus fréquents dans un flux de données.

Il a été introduit en 2004 par M. Charikar, K. Chen, et M. Farach-Colton^[1].

Histoire

Le count sketch a été proposé comme une amélioration du sketch AMS de N.Alon, Y.Matias et M.Szegedy^[2].

Définition

Le count sketch peut être vu comme un nom recouvrant à la fois une structure de données, une procédure permettant de la mettre à jour lorsqu'un nouvel élément du flux doit être traité, ainsi qu'une règle permettant à tout moment d'estimer la fréquence des éléments les plus courants à partir de la structure de données.

Structure de données

Soit ${\mathcal {X}}$ l'ensemble d'entrée, c.-à-d. auquel appartiennent les éléments du flux. Soit $t,b\in \mathbb {N} _{>0}$ deux paramètres controllant la taille du sketch. Soient $h_{1},\dots ,h_{t}$ des fonctions de hachage de ${\mathcal {X}}$ vers $\{1,\dots ,b\}$ indépendantes. Soient $s_{1},\dots ,s_{t}$ des fonctions de hachage de ${\mathcal {X}}$ vers $\{-1,+1\}$ , indépendantes deux à deux et indépendantes des $(h_{i})_{1\leq i\leq t}$

Le sketch lui-même consiste en une table (matrice) $T\in \mathbb {Z} ^{t\times b}$ , dont toutes les entrées sont initialisées à zéro.

Ajout d'un élément

Lorsqu'un nouvel élément $x\in {\mathcal {X}}$ est traité, la table est mise à jour de la manière suivante:

 Pour  $i=1,\dots ,t$   
    $T_{i,h_{i}(x)}=T_{i,h_{i}(x)}+s_{i}(x)$

Ainsi, chaque ligne du tableau a exactement une entrée qui est modifiée (incrémentée ou décrémentée selon la valeur de $s_{i}(x)$ ) lors de l'ajout d'un nouvel élément.

Estimation du nombre d'occurrences

Pour estimer le nombre d'occurrences d'un élément $e\in {\mathcal {X}}$ , l'estimateur suivant est calculé:

{\hat {n}}(e)=\mathrm {mediane} (h_{1}(e)s_{1}(e),\dots ,h_{t}(e)s_{t}(e))

Garanties

Soit $\epsilon >0,k\in \mathbb {N} _{>0}$ , et $n$ le nombre total d'éléments dans le flux. Soit $n_{k}$ le nombre d’occurrences dans le flux du $k$ -ième élément apparaissant le plus. Dans leur article original, les auteurs prouvent^[1] qu'en choisissant $t=\Theta (\log(n)/\delta )$ et $b$ plus grand qu'un seuil dépendant notamment de $k,\epsilon$ , l'algorithme permet de retrouver une liste de $k$ éléments apparaissant chacun strictement plus de $(1-\epsilon )n_{k}$ .

Références

↑ ^{a et b} M. Charikar, K. Chen, M. Farach-Colton, « Finding frequent items in data streams », Theoretical Computer Science, Elsevier, vol. 312, t. 1,‎ 2004
↑ N. Alon, Y. Matias, M. Szegedy, « The space complexity of approximating the frequency moments », Proceedings of the twenty-eighth annual ACM symposium on Theory of Computing,‎ 1996

Voir aussi

Articles connexes

Portail de l’informatique

[charikar2004-1] {a et b} M. Charikar, K. Chen, M. Farach-Colton, « Finding frequent items in data streams », Theoretical Computer Science, Elsevier, vol. 312, t. 1,‎ 2004

[2] N. Alon, Y. Matias, M. Szegedy, « The space complexity of approximating the frequency moments », Proceedings of the twenty-eighth annual ACM symposium on Theory of Computing,‎ 1996

[1]

[2]