La minería de datos consiste en analizar millones de pequeños datos. Last.fm es un ejemplo genial de ello. Una vez te registras te observan. Si abres tu winamp o
Si cada uno de los usuarios de Last.fm escucha una canción cada cuatro minutos, la cantidad de información que se guarda en su base de datos debe ser impresionante. Ser el administrador de una base de datos así y entrar por las mañanas debe ser como despertarse todos los días en el Kilimanjaro. Cuantos más usuarios, menos fallo, más verdad. Diez millones de escuchas al día.
Empecé poniendo Daft Punk y Soulwax y en un par de semanas he descubierto Justice, Digitalism, Boys Noize y un montón de música electrónica francesa. También he descubierto nuevos términos para denominar música. De estos que duran dos semanas. Neo-rave o new-rave. Es como decir "música de martes por la tarde". En cualquier caso, es inspiradora. Me hace abrir el Reason todas las noches y lamentarlo por la mañana.
Para mi Proyecto Secreto he decidido guardar un registro en una enorme tabla cada vez que haya un nuevo suceso y cada día procesar los nuevos cambios para sacar estadísticas. La latencia da bastante seguridad porque si se corrompen resultados estadísticos (al utilizar estadística on-the-fly) hay poco que hacer con ellos y para el uso que les voy a dar no hay ninguna prisa. Idealmente los resultados variarán muy poco de un día a otro.
Otra razón por la que optar por un procesado periódico de estadísticas es que si se guardan eventos simples, se pueden sacar en cualquier momento otras estadísticas interesantes, que mejoren el motor de inteligencia artificial (o como se quiera llamar) y apuntarlas hacia datos del pasado para tener el dato instantáneamente en vez de esperar a que se generen.
No hay comentarios:
Publicar un comentario