Podcast Z

Podcast Z #7: Proyecto X - Filtros BLOOM

Informações:

Sinopsis

Estructura para comprobar pertenencia a un conjunto, de forma probabilística. https://podcast.jcea.es/podcastz/7 Notas: 01:00: Filtros Bloom. Tecnología interesante y desconocida. 01:30: El número de huellas ha ido creciendo, y la estructura de datos que usamos, "set()", tiene un coste en memoria proporcional al número de elementos. Estábamos usando 1.5GB en 32 bits, y 3GB en 64 bits. 04:30: Las huellas eran 40 millones de números (y creciendo) de 32 bits. Son 150MB en disco, pero 1.5/3 gigabytes al cargarlos en un "set()". 05:40: Idea simple para reducir los 1.5/3GB a 512MB: como trabajamos con números de 32bits, podemos tener una matriz de 232 bits y ponerlos a cero o a uno según ese valor esté en la lista o no. Esto son 512MB. 07:15: Como tenemos una matriz de 232 bits, pero solo un 1% estará a UNO, los 512MB resultantes se pueden comprimir muy bien, típicamente al 11% (unos 55MB), aptos para ser transmitidos por Internet. 08:40: La matriz así generada no tiene falsos positivos ni falsos negativos,