Minería de Datos aplicada a las Redes Sociales
Transcription
Minería de Datos aplicada a las Redes Sociales
Minería de Datos aplicada a las Redes Sociales Paola García García Carlos Azaustre Rodríguez I.T.T. Telemática Universidad Carlos III de Madrid Leganés, Madrid (España) I.T.T. Telemática Universidad Carlos III de Madrid Leganés, Madrid (España) [email protected] [email protected] ABSTRACT En este Paper, analizaremos la función que tiene el estudio de la minería de datos aplicado a la web 2.0, en concreto, las redes sociales. Definiremos que es la minería de datos, que es una red social y como el estudio de los datos se aplica al funcionamiento de una red social. 1. INTRODUCCIÓN Más del 70 por ciento de los usuarios españoles han visitado una red social en el pasado mes de septiembre, según datos de ComScore, una empresa de investigación de mercados global con foco en Internet. La mitad de los usuarios de internet declaran serlo también de forma habitual en sitios como Facebook, Twitter, MySpace o Linkedin, entre otros. La mayoría son jóvenes de entre 16 y 30 años. Este año 2008 está siendo el BOOM de las redes sociales en todo el mundo. Algunas de ellas han experimentado un crecimiento del 1000% desde junio de 2007 a septiembre de este año. Mas allá de fríos datos, podemos decir que nosotros mismos somos usuarios de redes sociales tales como tuenti o fotolog , en los que podemos ver también a gran parte de nuestros compañeros de universidad. Los usuarios solemos introducir en nuestra cuenta de la red social todo tipo de datos personales: nombre, fecha de nacimiento, número de teléfono y dirección, y hasta formación académica y gustos musicales. En principio estos servicios suelen garantizar que es el usuario el que decide quién puede acceder a su perfil. La idea que nos viene a la cabeza al oír minería de datos es, a grandes rasgos, la de una técnica que extrae conclusiones útiles a partir del procesamiento de una gran cantidad de datos. La minería de datos necesita de un conjunto importante de datos y las redes sociales que nosotros usamos los almacenan así que aquí tenemos el nexo de unión entre los 2 campos. En este trabajo nos preguntamos que tipos de conclusiones se pueden obtener a partir de los datos que libremente dejamos en la red. En la actualidad ¿Ya se están haciendo este tipo de estudios? Si es así, ¿Hacia qué se están orientando las conclusiones? 2. MINERÍA DE DATOS La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Para un experto, o para el responsable de un sistema, normalmente no son los datos en sí lo más relevante, sino la información que se encierra en sus relaciones, fluctuaciones y dependencias. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. 2.1 Proceso de estudio oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar. Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc. 2.2 Técnicas de Minería de Datos Un proceso típico de minería de datos consta de los siguientes pasos generales: 1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. 2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos). 3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema. 4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación. 5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo. Como ya se ha comentado, las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: • • Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son: o El Perceptrón. o El Perceptrón multicapa. o Los Mapas Autoorganizados, conocidos como redes de Kohonen. Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos: o Algoritmo ID3. Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera también o Algoritmo C4.5. • • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos: o Algoritmo K-means. o Algoritmo K-medoids. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos. 2.3 Web Mining. El Web mining es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información tanto del contenido de las páginas, de su estructura de relaciones (enlaces) y de los registro de navegación de los usuarios. En este sentido podemos definir el Web mining en tres variantes: • Mineración del contenido de la Web, o Web Content Mining; • Mineración de la estructura de la Web, o Web Structure Mining; • Mineración de los registro de navegación en la Web. o Web Usage Mining. 3. REDES SOCIALES Una red social es una estructura social que se puede representar en forma de uno o varios grafos en el cual los nodos representan individuos (a veces denominados actores) y las aristas relaciones entre ellos. Las relaciones pueden ser de distinto tipo, como intercambios financieros, amistad, relaciones sexuales, o rutas aéreas. También es el medio de interacción de distintas personas como por ejemplo juegos en línea, chats, foros, spaces, etc. Según la naturaleza de las relaciones, se pueden dividir entre 2 cosas: • diádicas (sólo indican ausencia o existencia de la relación) o valoradas (en la que la cantidad de la relación pueda medirse en términos de orden o de peso como, por ejemplo, número de encuentros sexuales entre dos personas), o bien • transitivas (la relación en realidad es una unión entre actores que siempre es recíproca. Ejemplo: leemos el mismo blog habitualmente) o dirigidas (que el individuo A tenga relación con el individuo B no implica que B tenga esa misma relación con A, como, por ejemplo, prestar dinero). El análisis de redes sociales ha irrumpido en muchas ciencias sociales en los últimos veinte años como una nueva herramienta de análisis de realidad social. Al centrarse en las relaciones de los individuos (o grupos de individuos) y no en las características de los mismos (raza, edad, ingresos, educación,...) ha sido capaz de abordar algunos temas con un éxito insospechado. La difusión de información o el contagio de enfermedades son dos ejemplos de asuntos en los que la estructura de las relaciones pueden llegar a ser más relevantes que las características de los individuos, o por lo menos, información clave para conocer los procesos. El Análisis de redes sociales se basa en la Teoría de Redes Sociales, la cual se ha desarrollado en el mundo de una manera más intensiva a partir de los años 60 del Siglo XX The heading of subsections should be in Times New Roman 12- 4. MINERIA DE DATOS APLICADA AL ESTUDIO DE LOS DATOS ALMACENADOS EN LAS REDES SOCIALES BusinessWeek pone un ejemplo: "Aficionados al baloncesto que pasan mucho tiempo visitando mutuamente las respectivas páginas y algunos dejan comentarios sobre lo mucho que les gusta un videojuego. El método publicitario tradicional haría que Nike pusiese un anuncio en la página de uno de ellos. Con el nuevo método, podría anunciarse sólo en las de los más influyentes y además con un anuncio videojuego". Minería de datos, redes sociales y contratación en empresas. Hemos encontrando amplia respuesta a nuestra pregunta inicial de si en la actualidad existen estudios que relacionen redes sociales y minería de datos. Muchas empresas empiezan a darse cuenta de que usar la minería de datos para obtener información a partir de lo que mostramos de nosotros mismos en las redes sociales es sinónimo de mejoras sustanciales en temas como publicidad, contratación, venta… La minería de datos al servicio de una publicidad personalizada. Las redes sociales ofrecen a la publicidad dar en la diana como jamás lo había hecho, tanto en el conocimiento de las audiencias como en ofrecerles el anuncio correcto. No en vano grandes compañías, como Coca-Cola, BlockBuster y Sony, firmaban el año pasado un acuerdo para publicitarse en Facebook y Microsoft es el partner exclusivo de esta red para servir anuncios. Pueden coger nuestra información y cruzarla para saber más de nosotros, y adaptar la minería de datos a la publicidad en las redes sociales. Google ha presentado en los últimos meses diversas patentes en este sentido con los que espera dar mayor rentabilidad a MySpace La publicidad personalizada actual se basa en unos pocos rasgos demográficos, como el sexo, la edad, el empleo o el lugar de residencia. La propuesta de Google añade nuevos parámetros, como aficiones, webs que visitamos; grupos a los que pertenecemos; personas con quienes hablamos, compartimos intereses o que leen nuestros blogs, e incluso el análisis semántico de lo que decimos. Estos tomarían el papel de atributos en el proceso de la minería de datos. A partir de ellos se obtendrían predicciones sobre si el usuario comprará más un tipo de producto u otro. Recientemente, Business Week informaba de una patente de Google destinada a descubrir a las personas más influyentes de una red social: "Tendría en cuenta desde cuánta gente conoces y si esta gente a su vez conoce a más gente, hasta con qué frecuencia hablas con ellos y en cuánto estiman tus opiniones". Google usaría para ello algoritmos parecidos a los que hacen que un sitio aparezca en primer lugar en el buscador. Como hemos visto una de las aplicaciones de la minería de datos centrada en las redes sociales es la de la publicidad personalizada pero no es la única. Algunas empresas comienzan a usar esta técnica para conocer más acerca de sus futuros empleados. En una entrevista personal el experto en recursos humanos intenta hacerse una idea de como somos y de como responderemos ante el trabajo. Así mismo el experto técnico analiza cuales son nuestros conocimientos y capacidades. Ambos pueden utilizar una nueva herramienta que les facilitará el proceso, la minería de datos aplicada a las redes sociales. La investigación en esta área, comprende los temas más importantes y necesarios para la caracterización del cliente y el estudio de sus aplicaciones más directas. Nuevas técnicas en minería de datos y análisis de redes sociales para generar conocimiento estratégico que contribuya a la caracterización del cliente (“dime con quien andas y te diré quien eres”). Perfil de usuarios de redes sociales y conclusiones obtenidas mediante minería de datos. Un 30% de las personas que utilizan redes sociales lo hacen diariamente. Se coloca en segundo escalón entre otras de las actividades cotidianas mas realizadas en las red como búsquedas, mensajería instantánea, etc.… El de las redes sociales es un fenómeno reciente y en auge. El 70% de los usuarios lleva menos de 2 años agregado a la red social La siguiente grafica muestra la apreciación del usuario ante las distintas redes sociales. Los habituales de redes sociales son consumidores activos de medios de comunicación Clasificación de los usuarios de redes sociales y sus rasgos característicos. 1.) Pioneros. Servicios como Messenger, Youtube, Emule, Wikipedia y blogs son vistos por los usuarios como servicios abiertos, mas extendidos y unilaterales. Servicios como Gmail, flickr, fotolog, ebay, tuenti y facebook se aprecian como servicios restringidos, aun no tan generalizados. Los usuarios de las redes sociales son mayoritariamente jóvenes, de entre 16 y 30 años, de clase media y alta, en un porcentaje ligeramente superior mujeres frente a hombres. • Supone el 28.7%. • Descubrieron las redes sociales aproximadamente hace 2 anos por contacto internacional. Abrieron cuenta por curiosidad. • Acceden a Internet por motivaciones tecnológicas. • Visitan perfiles de marcas comerciales y no rechazan patrocinadores • Están al tanto de las nuevas aplicaciones y juegos que ofrecen las redes sociales. • Son los primeros en adoptar nuevos productos, marcan tendencias y evangelizan. • Suelen pasar más de 3 horas conectados. 2.) Los informados • Supone el 52.4% • Descubrieron las redes sociales aproximadamente hace 1 año , 6 meses por invitación de un conocido. • Descubren nuevos sitios a través de links que les envían • Incorporan internet en sus relaciones personales. Desde que están en redes sociales están mas al tanto de lo que hacen sus amigos • Están conectados de una a dos horas 3.) Seguidores de la moda • Supone el 18.7% • Descubrieron las redes sociales aproximadamente hace 6 meses por que funciono el boca a boca entre los conocidos. • Utilizan Internet por temas de trabajo • Descubren nuevos sitios a través de recomendaciones de amigos. • Están conectados menos de una hora • No les molesta la publicidad en las redes sociales Hábitos de uso diario de los usuarios de las redes sociales Motivaciones que llevan a unirse a una red social 1.) Los amigos. Supone el 94% • Por invitación de los amigos. • Para mantenerse en contacto con los amigos • Porque todos mis amigos estaban. Los jóvenes son los usuarios que más veces al día se conectan a las redes sociales. Lo suelen hacer en los huecos del trabajo o estudios. Seguidos de estos están los adultos/jóvenes que suelen actualizar por la noche al llegar a casa. Los adolescentes se meten a sus cuentas una vez al día y no suelen permanecer mucho tiempo conectados. 2.) Otras motivacioness. Supone el 6% • Porque está de moda • Porque es divertido. • Para hacer contactos profesionales • Para promocionar un producto Los usuarios de las redes sociales suelen pertenecer a más de una de ellas. Como media están registrados en 2.67 sitios y utilizan normalmente 1.81 sitios. Redes sociales y su influencia en las decisiones de compra Ahora más que nunca las decisiones de compra están ligadas a las influencias de los otros. La recomendación de un amigo a través de una comunidad social y la publicidad en el cine son los canales que más confianza inspiran a las usuarios de las redes sociales. Por otra parte los usuarios de las redes sociales hablan más de las marcas comerciales y las recomiendan mas que los usuarios de Internet que no están agregados a las redes sociales. Estudio sobre redes sociales y datos privados Hasta ahora hemos visto algunos ejemplos de las aplicaciones de la minería de datos a las redes sociales. Cómo utilizan las empresas estas técnicas para saber más sobre nosotros y hacer predicciones sobre nuestras actitudes que les beneficiarán en la venta de productos o en la contratación de personal. Ahora nos ponemos del lado del usuario de estas redes sociales que deja sus datos al crear su cuenta y actualizar sus entradas, sin darse cuenta, la mayoría de las veces, de lo que con ellos se esta haciendo por detrás. A muchos de ellos quizás no les importaría que se hicieran estudios con sus datos pero creemos que es importante estar informado de que esto es así para después poder elegir libremente. Cada uno de los participantes de una red social debe aceptar las condiciones de uso y participación de la plataforma sobre la que se encuentre y se compromete a brindar la información necesaria para relacionarse con otros miembros. Todo este volumen de información personal disponible en la Red ya ha alertado a las autoridades de protección de datos. "El auge de estos servicios ha propiciado un nivel sin precedentes de divulgación de información personal y fotografías", advierte una resolución aprobada por las autoridades de protección de datos de 37 países, entre ellas la Agencia Española de Protección de Datos, emitida recientemente en la 30ª Conferencia Internacional de Privacidad, celebrada en Estrasburgo. usuario el que decide quién puede acceder a su perfil. Sin embargo, la resolución incide en que existe el riesgo de que esa información se filtre fuera de la red social cuando es indexada por los buscadores y que sea accesible para cualquiera. Es decir, que podría darse el caso de que buscando a través de Google se pudiera acceder a los datos personales de los usuarios. (De hecho, introduciendo el nombre de un miembro de Facebook en el buscador se puede ver su foto personal y la lista de sus amigos). Algunos especialistas indican que uno de los detalles que los usuarios deben tener en cuenta son las aplicaciones a las que acceden dentro de las redes sociales. El caso más claro es el de Facebook, que incluye un amplio abanico de aplicaciones, como juegos de preguntas, encuestas sobre gustos musicales o cinematográficos, clubs de fans, y un largo etcétera. Para acceder a muchos de ellos el usuario debe consentir el acceso a sus datos personales. Pero los creadores de estas aplicaciones son externos a Facebook, por lo que el dueño de la cuenta está cediendo sus datos a un desconocido. No es ninguna hipótesis. Un equipo de la página web de la BBC demostró hace unos meses las grietas de seguridad de Facebook. En un par de horas crearon un aplicación y la introdujeron en la red social (algo que puede hacer cualquiera con ciertos conocimientos de programación). Consiguieron sin problemas los datos de varios usuarios y los de sus listas de amigos. Segu-Info, uno de los sitios de Seguridad de la Información más reconocidos de Latinoamérica, realizó un informe en el que se demuestra que el 47%, prácticamente la mitad, de los usuarios de redes sociales aceptan contactos desconocidos. Este informe demuestra lo sencillo que es establecer contacto con cualquier tipo de persona, siendo un desconocido y sin brindar ningún tipo de información adicional, más que un pedido expreso a la persona que se desee contactar. El fenómeno social de medir la "fama personal" por la cantidad de contactos o comentarios en un sitio web, establecer una relación virtual con cualquier persona y competir por la cantidad de contactos puede tener un precio: nuestra privacidad, intimidad y seguridad personal En conclusión, las redes sociales plantean unos riesgos potenciales que sólo empiezan a entreverse. Ante esta circunstancia, la resolución de las agencias de protección de datos advierten de que "es muy probable que el futuro surjan otros usos no esperados de la información contenida en los perfiles de los usuarios". Para vivir sin sobresaltos en una red social 1. Suministrar sólo la información necesaria para que los amigos le reconozcan. 2. Limitar el acceso a su página a sólo amigos. El usuario suele introducir en su cuenta de la red social todo tipo de datos personales: nombre, fecha de nacimiento, número de teléfono y dirección, y hasta formación académica y gustos musicales. En principio estos servicios suelen garantizar que es el 3. Recordar siempre que al introducir información en una red social deja de ser privada, así como lo que haga en ella. 4. Eliminar las aplicaciones que no se usan y, al instalar una, investigar quiénes son sus creadores y su política de privacidad. 6. REFERENCIAS 5. Leer también la política de privacidad de la red social. [1] "INTRODUCCIÓN A LA MINERÍA DE DATOS" 5. CONCLUSIONES La minería de datos, convierte una gran de cantidad datos, que por si solos no tienen significado predictivo, en información valiosa para determinar patrones de comportamiento. Esta técnica puede emplearse en multitud de situaciones para crear relaciones entre datos. Un ejemplo de esto es lo que se hace en algo tan actual como las redes sociales. Los usuarios metemos los datos ignorando el gran volumen de información que le estamos proporcionando a la red. De atributos como edad, sexo, tiempo que estamos conectados, clase social, gustos sobre distintos productos se puede obtener información del perfil de usuario de estas redes y predecir de alguna manera su forma de actuar en relación al mercado entre otras cosas. Algunas de las aplicaciones más controvertidas del momento son la publicidad personalizada o la contratación en base a las características obtenidas. Por lo tanto, sabiendo que estos estudios se realizan, cada uno debemos ser responsables de aquello que dejamos al uso de los demás. José Hernández Orallo, M.José Ramírez Quintana, Cèsar Ferri Ramírez. Editorial Pearson, 2004. ISBN: 84 205 4091 [2] Estudio Zed Digital sobre redes sociales, percepción y publicidad. [3] http://www.tid.es/es/que-hacemos/investigacion-cientifica [4] http://www.elpais.com/articulo/portada/mineria/datos/servici o/publicidad/personalizada/elpepisupcib/20081106elpcibpor _3/Tes [5] http://ar.news.yahoo.com/s/17112008/44/n-technologyredes-sociales-mitad-acepta-contactos.html [6] http://www.elpais.com/articulo/tecnologia/Sabe/Facebook/de masiado/usuarios/elpeputec/20081101elpeputec_4/Tes