martes, 1 de abril de 2008

De daft punk a la minería de datos

En el trabajo me gusta sacar estadísticas de eventos que guardo en bases de datos. Rendimiento, velocidad, carga y cosas insustanciales que no dan para más. En mi nuevo Proyecto Secreto pretendo jugar con cargas brutales y registros exhaustivos para aunar comportamientos, relacionar datos y hacer enormes gráficas sacadas de largos procesos nocturnos.

La minería de datos consiste en analizar millones de pequeños datos. Last.fm es un ejemplo genial de ello. Una vez te registras te observan. Si abres tu winamp o tienes la mala suerte de usar tu Itunes se envía la canción que escuchas al iniciarla, así va creando un perfil sobre ti (esto se llama scrobbling, por lo visto). También al usar lastfm tienes varias opciones; escuchar música relacionada con un artista, escuchar la música de un usuario o simplemente darle a Play para que te ponga música según lo que te gusta escuchar.

Si cada uno de los usuarios de Last.fm escucha una canción cada cuatro minutos, la cantidad de información que se guarda en su base de datos debe ser impresionante. Ser el administrador de una base de datos así y entrar por las mañanas debe ser como despertarse todos los días en el Kilimanjaro. Cuantos más usuarios, menos fallo, más verdad. Diez millones de escuchas al día.

Empecé poniendo Daft Punk y Soulwax y en un par de semanas he descubierto Justice, Digitalism, Boys Noize y un montón de música electrónica francesa. También he descubierto nuevos términos para denominar música. De estos que duran dos semanas. Neo-rave o new-rave. Es como decir "música de martes por la tarde". En cualquier caso, es inspiradora. Me hace abrir el Reason todas las noches y lamentarlo por la mañana.

Para mi Proyecto Secreto he decidido guardar un registro en una enorme tabla cada vez que haya un nuevo suceso y cada día procesar los nuevos cambios para sacar estadísticas. La latencia da bastante seguridad porque si se corrompen resultados estadísticos (al utilizar estadística on-the-fly) hay poco que hacer con ellos y para el uso que les voy a dar no hay ninguna prisa. Idealmente los resultados variarán muy poco de un día a otro.

Otra razón por la que optar por un procesado periódico de estadísticas es que si se guardan eventos simples, se pueden sacar en cualquier momento otras estadísticas interesantes, que mejoren el motor de inteligencia artificial (o como se quiera llamar) y apuntarlas hacia datos del pasado para tener el dato instantáneamente en vez de esperar a que se generen.

No hay comentarios: