Minería de Datos aplicada a las Redes Sociales

Transcription

Minería de Datos aplicada a las Redes Sociales
Minería de Datos aplicada a las Redes Sociales
Paola García García
Carlos Azaustre Rodríguez
I.T.T. Telemática
Universidad Carlos III de Madrid
Leganés, Madrid (España)
I.T.T. Telemática
Universidad Carlos III de Madrid
Leganés, Madrid (España)
[email protected]
[email protected]
ABSTRACT
En este Paper, analizaremos la función que tiene el estudio de la
minería de datos aplicado a la web 2.0, en concreto, las redes
sociales.
Definiremos que es la minería de datos, que es una red social y
como el estudio de los datos se aplica al funcionamiento de una
red social.
1. INTRODUCCIÓN
Más del 70 por ciento de los usuarios españoles han visitado una
red social en el pasado mes de septiembre, según datos de
ComScore, una empresa de investigación de mercados global con
foco en Internet.
La mitad de los usuarios de internet declaran serlo también de
forma habitual en sitios como Facebook, Twitter, MySpace o
Linkedin, entre otros. La mayoría son jóvenes de entre 16 y 30
años. Este año 2008 está siendo el BOOM de las redes sociales en
todo el mundo. Algunas de ellas han experimentado un
crecimiento del 1000% desde junio de 2007 a septiembre de este
año.
Mas allá de fríos datos, podemos decir que nosotros mismos
somos usuarios de redes sociales tales como tuenti o fotolog , en
los que podemos ver también a gran parte de nuestros compañeros
de universidad.
Los usuarios solemos introducir en nuestra cuenta de la red social
todo tipo de datos personales: nombre, fecha de nacimiento,
número de teléfono y dirección, y hasta formación académica y
gustos musicales. En principio estos servicios suelen garantizar
que es el usuario el que decide quién puede acceder a su perfil.
La idea que nos viene a la cabeza al oír minería de datos es, a
grandes rasgos, la de una técnica que extrae conclusiones útiles a
partir del procesamiento de una gran cantidad de datos.
La minería de datos necesita de un conjunto importante de datos y
las redes sociales que nosotros usamos los almacenan así que aquí
tenemos el nexo de unión entre los 2 campos.
En este trabajo nos preguntamos que tipos de conclusiones se
pueden obtener a partir de los datos que libremente dejamos en la
red.
En la actualidad ¿Ya se están haciendo este tipo de estudios?
Si es así, ¿Hacia qué se están orientando las conclusiones?
2. MINERÍA DE DATOS
La minería de datos (DM, Data Mining) consiste en la extracción
no trivial de información que reside de manera implícita en los
datos. Dicha información era previamente desconocida y podrá
resultar útil para algún proceso. En otras palabras, la minería de
datos prepara, sondea y explora los datos para sacar la
información oculta en ellos.
Para un experto, o para el responsable de un sistema,
normalmente no son los datos en sí lo más relevante, sino la
información que se encierra en sus relaciones, fluctuaciones y
dependencias.
Bajo el nombre de minería de datos se engloba todo un conjunto
de técnicas encaminadas a la extracción de conocimiento
procesable, implícito en las bases de datos. Está fuertemente
ligado con la supervisión de procesos industriales ya que resulta
muy útil para aprovechar los datos almacenados en las bases de
datos.
Las bases de la minería de datos se encuentran en la inteligencia
artificial y en el análisis estadístico. Mediante los modelos
extraídos utilizando técnicas de minería de datos se aborda la
solución a problemas de predicción, clasificación y segmentación.
2.1 Proceso de estudio
oportuno, a partir de cualquiera de los pasos anteriores. Esta
retroalimentación se podrá repetir cuantas veces se considere
necesario hasta obtener un modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona
salidas adecuadas y/o con márgenes de error admisibles) éste ya
está listo para su explotación. Los modelos obtenidos por técnicas
de minería de datos se aplican incorporándolos en los sistemas de
análisis de información de las organizaciones, e incluso, en los
sistemas transaccionales. En este sentido cabe destacar los
esfuerzos del Data Mining Group, que está estandarizando el
lenguaje PMML (Predictive Model Markup Language), de
manera que los modelos de minería de datos sean interoperables
en distintas plataformas, con independencia del sistema con el que
han sido construidos. Los principales fabricantes de sistemas de
bases de datos y programas de análisis de la información hacen
uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban
sobre información contenida en almacenes de datos. De hecho,
muchas grandes empresas e instituciones han creado y alimentan
bases de datos especialmente diseñadas para proyectos de minería
de datos en las que centralizan información potencialmente útil de
todas sus áreas de negocio. No obstante, actualmente está
cobrando una importancia cada vez mayor la minería de datos
desestructurados como información contenida en ficheros de
texto, en Internet, etc.
2.2 Técnicas de Minería de Datos
Un proceso típico de minería de datos consta de los siguientes
pasos generales:
1.
Selección del conjunto de datos, tanto en lo que se
refiere a las variables dependientes, como a las
variables objetivo, como posiblemente al muestreo de
los registros disponibles.
2.
Análisis de las propiedades de los datos, en especial los
histogramas, diagramas de dispersión, presencia de
valores atípicos y ausencia de datos (valores nulos).
3.
Transformación del conjunto de datos de entrada, se
realizará de diversas formas en función del análisis
previo, con el objetivo de prepararlo para aplicar la
técnica de minería de datos que mejor se adapte a los
datos y al problema.
4.
Seleccionar y aplicar la técnica de minería de datos, se
construye el modelo predictivo, de clasificación o
segmentación.
5.
Evaluar los resultados contrastándolos con un conjunto
de datos previamente reservado para validar la
generalidad del modelo.
Como ya se ha comentado, las técnicas de la minería de datos
provienen de la Inteligencia artificial y de la estadística, dichas
técnicas, no son más que algoritmos, más o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos
resultados.
Las técnicas más representativas son:
•
•
Redes neuronales.- Son un paradigma de aprendizaje y
procesamiento automático inspirado en la forma en que
funciona el sistema nervioso de los animales. Se trata de
un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos
ejemplos de red neuronal son:
o
El Perceptrón.
o
El Perceptrón multicapa.
o
Los Mapas Autoorganizados,
conocidos como redes de Kohonen.
Árboles de decisión.- Un árbol de decisión es un
modelo de predicción utilizado en el ámbito de la
inteligencia artificial, dada una base de datos se
construyen estos diagramas de construcciones lógicas,
muy similares a los sistemas de predicción basados en
reglas, que sirven para representar y categorizar una
serie de condiciones que suceden de forma sucesiva,
para la resolución de un problema. Ejemplos:
o Algoritmo ID3.
Si el modelo final no superara esta evaluación el proceso se
podría repetir desde el principio o, si el experto lo considera
también
o Algoritmo C4.5.
•
•
Modelos estadísticos.- Es una expresión simbólica en
forma de igualdad o ecuación que se emplea en todos
los diseños experimentales y en la regresión para
indicar los diferentes factores que modifican la variable
de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de
agrupación de una serie de vectores según criterios
habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos
aquellos que tengan características comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
Según el objetivo del análisis de los datos, los algoritmos
utilizados se clasifican en supervisados y no supervisados (Weiss
y Indurkhya, 1998):
•
Algoritmos supervisados (o predictivos): predicen un
dato (o un conjunto de ellos) desconocido a priori, a
partir de otros conocidos.
•
Algoritmos no supervisados (o del descubrimiento
del conocimiento): se descubren patrones y tendencias
en los datos.
2.3 Web Mining.
El Web mining es una metodología de recuperación de la
información que usa herramientas de la minería de datos para
extraer información tanto del contenido de las páginas, de su
estructura de relaciones (enlaces) y de los registro de navegación
de los usuarios.
En este sentido podemos definir el Web mining en tres variantes:
•
Mineración del contenido de la Web, o Web Content
Mining;
•
Mineración de la estructura de la Web, o Web Structure
Mining;
•
Mineración de los registro de navegación en la Web. o
Web Usage Mining.
3. REDES SOCIALES
Una red social es una estructura social que se puede representar
en forma de uno o varios grafos en el cual los nodos representan
individuos (a veces denominados actores) y las aristas relaciones
entre ellos. Las relaciones pueden ser de distinto tipo, como
intercambios financieros, amistad, relaciones sexuales, o rutas
aéreas. También es el medio de interacción de distintas personas
como por ejemplo juegos en línea, chats, foros, spaces, etc.
Según la naturaleza de las relaciones, se pueden dividir entre 2
cosas:
•
diádicas (sólo indican ausencia o existencia de la
relación) o valoradas (en la que la cantidad de la
relación pueda medirse en términos de orden o de peso
como, por ejemplo, número de encuentros sexuales
entre dos personas), o bien
•
transitivas (la relación en realidad es una unión entre
actores que siempre es recíproca. Ejemplo: leemos el
mismo blog habitualmente) o dirigidas (que el individuo
A tenga relación con el individuo B no implica que B
tenga esa misma relación con A, como, por ejemplo,
prestar dinero).
El análisis de redes sociales ha irrumpido en muchas ciencias
sociales en los últimos veinte años como una nueva herramienta
de análisis de realidad social. Al centrarse en las relaciones de los
individuos (o grupos de individuos) y no en las características de
los mismos (raza, edad, ingresos, educación,...) ha sido capaz de
abordar algunos temas con un éxito insospechado. La difusión de
información o el contagio de enfermedades son dos ejemplos de
asuntos en los que la estructura de las relaciones pueden llegar a
ser más relevantes que las características de los individuos, o por
lo menos, información clave para conocer los procesos.
El Análisis de redes sociales se basa en la Teoría de Redes
Sociales, la cual se ha desarrollado en el mundo de una manera
más intensiva a partir de los años 60 del Siglo XX
The heading of subsections should be in Times New Roman 12-
4. MINERIA DE DATOS APLICADA AL
ESTUDIO DE LOS DATOS
ALMACENADOS EN LAS REDES
SOCIALES
BusinessWeek pone un ejemplo: "Aficionados al baloncesto que
pasan mucho tiempo visitando mutuamente las respectivas
páginas y algunos dejan comentarios sobre lo mucho que les gusta
un videojuego. El método publicitario tradicional haría que Nike
pusiese un anuncio en la página de uno de ellos. Con el nuevo
método, podría anunciarse sólo en las de los más influyentes y
además con un anuncio videojuego".
Minería de datos, redes sociales y contratación en
empresas.
Hemos encontrando amplia respuesta a nuestra pregunta inicial
de si en la actualidad existen estudios que relacionen redes
sociales y minería de datos.
Muchas empresas empiezan a darse cuenta de que usar la minería
de datos para obtener información a partir de lo que mostramos de
nosotros mismos en las redes sociales es sinónimo de mejoras
sustanciales en temas como publicidad, contratación, venta…
La minería de datos al servicio de una publicidad
personalizada.
Las redes sociales ofrecen a la publicidad dar en la diana como
jamás lo había hecho, tanto en el conocimiento de las audiencias
como en ofrecerles el anuncio correcto. No en vano grandes
compañías, como Coca-Cola, BlockBuster y Sony, firmaban el
año pasado un acuerdo para publicitarse en Facebook y Microsoft
es el partner exclusivo de esta red para servir anuncios.
Pueden coger nuestra información y cruzarla para saber más de
nosotros, y adaptar la minería de datos a la publicidad en las redes
sociales. Google ha presentado en los últimos meses diversas
patentes en este sentido con los que espera dar mayor rentabilidad
a MySpace
La publicidad personalizada actual se basa en unos pocos rasgos
demográficos, como el sexo, la edad, el empleo o el lugar de
residencia. La propuesta de Google añade nuevos parámetros,
como aficiones, webs que visitamos; grupos a los que
pertenecemos; personas con quienes hablamos, compartimos
intereses o que leen nuestros blogs, e incluso el análisis semántico
de lo que decimos. Estos tomarían el papel de atributos en el
proceso de la minería de datos. A partir de ellos se obtendrían
predicciones sobre si el usuario comprará más un tipo de producto
u otro.
Recientemente, Business Week informaba de una patente de
Google destinada a descubrir a las personas más influyentes de
una red social: "Tendría en cuenta desde cuánta gente conoces y
si esta gente a su vez conoce a más gente, hasta con qué
frecuencia hablas con ellos y en cuánto estiman tus opiniones".
Google usaría para ello algoritmos parecidos a los que hacen que
un sitio aparezca en primer lugar en el buscador.
Como hemos visto una de las aplicaciones de la minería de datos
centrada en las redes sociales es la de la publicidad personalizada
pero no es la única.
Algunas empresas comienzan a usar esta técnica para conocer
más acerca de sus futuros empleados. En una entrevista personal
el experto en recursos humanos intenta hacerse una idea de como
somos y de como responderemos ante el trabajo. Así mismo el
experto técnico analiza cuales son nuestros conocimientos y
capacidades. Ambos pueden utilizar una nueva herramienta que
les facilitará el proceso, la minería de datos aplicada a las redes
sociales.
La investigación en esta área, comprende los temas más
importantes y necesarios para la caracterización del cliente y el
estudio de sus aplicaciones más directas. Nuevas técnicas en
minería de datos y análisis de redes sociales para generar
conocimiento estratégico que contribuya a la caracterización del
cliente (“dime con quien andas y te diré quien eres”).
Perfil de usuarios de redes sociales y conclusiones
obtenidas mediante minería de datos.
Un 30% de las personas que utilizan redes sociales lo hacen
diariamente. Se coloca en segundo escalón entre otras de las
actividades cotidianas mas realizadas en las red como búsquedas,
mensajería instantánea, etc.…
El de las redes sociales es un fenómeno reciente y en auge.
El 70% de los usuarios lleva menos de 2 años agregado a la red
social
La siguiente grafica muestra la apreciación del usuario ante las
distintas redes sociales.
Los habituales de redes sociales son consumidores activos de
medios de comunicación
Clasificación de los usuarios de redes sociales y sus rasgos
característicos.
1.) Pioneros.
Servicios como Messenger, Youtube, Emule, Wikipedia y blogs
son vistos por los usuarios como servicios abiertos, mas
extendidos y unilaterales.
Servicios como Gmail, flickr, fotolog, ebay, tuenti y facebook se
aprecian como servicios restringidos, aun no tan generalizados.
Los usuarios de las redes sociales son mayoritariamente jóvenes,
de entre 16 y 30 años, de clase media y alta, en un porcentaje
ligeramente superior mujeres frente a hombres.
•
Supone el 28.7%.
•
Descubrieron las redes sociales aproximadamente hace
2 anos por contacto internacional. Abrieron cuenta por
curiosidad.
•
Acceden a Internet por motivaciones tecnológicas.
•
Visitan perfiles de marcas comerciales y no rechazan
patrocinadores
•
Están al tanto de las nuevas aplicaciones y juegos que
ofrecen las redes sociales.
•
Son los primeros en adoptar nuevos productos, marcan
tendencias y evangelizan.
•
Suelen pasar más de 3 horas conectados.
2.) Los informados
•
Supone el 52.4%
•
Descubrieron las redes sociales aproximadamente hace
1 año , 6 meses por invitación de un conocido.
•
Descubren nuevos sitios a través de links que les envían
•
Incorporan internet en sus relaciones personales. Desde
que están en redes sociales están mas al tanto de lo que
hacen sus amigos
•
Están conectados de una a dos horas
3.) Seguidores de la moda
•
Supone el 18.7%
•
Descubrieron las redes sociales aproximadamente hace
6 meses por que funciono el boca a boca entre los
conocidos.
•
Utilizan Internet por temas de trabajo
•
Descubren nuevos sitios a través de recomendaciones
de amigos.
•
Están conectados menos de una hora
•
No les molesta la publicidad en las redes sociales
Hábitos de uso diario de los usuarios de las redes sociales
Motivaciones que llevan a unirse a una red social
1.) Los amigos. Supone el 94%
•
Por invitación de los amigos.
•
Para mantenerse en contacto con los amigos
•
Porque todos mis amigos estaban.
Los jóvenes son los usuarios que más veces al día se conectan a
las redes sociales. Lo suelen hacer en los huecos del trabajo o
estudios. Seguidos de estos están los adultos/jóvenes que suelen
actualizar por la noche al llegar a casa. Los adolescentes se meten
a sus cuentas una vez al día y no suelen permanecer mucho
tiempo conectados.
2.) Otras motivacioness. Supone el 6%
•
Porque está de moda
•
Porque es divertido.
•
Para hacer contactos profesionales
•
Para promocionar un producto
Los usuarios de las redes sociales suelen pertenecer a más de una
de ellas.
Como media están registrados en 2.67 sitios y utilizan
normalmente 1.81 sitios.
Redes sociales y su influencia en las decisiones de compra
Ahora más que nunca las decisiones de compra están ligadas a las
influencias de los otros.
La recomendación de un amigo a través de una comunidad social
y la publicidad en el cine son los canales que más confianza
inspiran a las usuarios de las redes sociales.
Por otra parte los usuarios de las redes sociales hablan más de las
marcas comerciales y las recomiendan mas que los usuarios de
Internet que no están agregados a las redes sociales.
Estudio sobre redes sociales y datos privados
Hasta ahora hemos visto algunos ejemplos de las aplicaciones de
la minería de datos a las redes sociales. Cómo utilizan las
empresas estas técnicas para saber más sobre nosotros y hacer
predicciones sobre nuestras actitudes que les beneficiarán en la
venta de productos o en la contratación de personal.
Ahora nos ponemos del lado del usuario de estas redes sociales
que deja sus datos al crear su cuenta y actualizar sus entradas, sin
darse cuenta, la mayoría de las veces, de lo que con ellos se esta
haciendo por detrás. A muchos de ellos quizás no les importaría
que se hicieran estudios con sus datos pero creemos que es
importante estar informado de que esto es así para después poder
elegir libremente.
Cada uno de los participantes de una red social debe aceptar las
condiciones de uso y participación de la plataforma sobre la que
se encuentre y se compromete a brindar la información necesaria
para relacionarse con otros miembros.
Todo este volumen de información personal disponible en la Red
ya ha alertado a las autoridades de protección de datos. "El auge
de estos servicios ha propiciado un nivel sin precedentes de
divulgación de información personal y fotografías", advierte una
resolución aprobada por las autoridades de protección de datos de
37 países, entre ellas la Agencia Española de Protección de Datos,
emitida recientemente en la 30ª Conferencia Internacional de
Privacidad, celebrada en Estrasburgo.
usuario el que decide quién puede acceder a su perfil. Sin
embargo, la resolución incide en que existe el riesgo de que esa
información se filtre fuera de la red social cuando es indexada por
los buscadores y que sea accesible para cualquiera. Es decir, que
podría darse el caso de que buscando a través de Google se
pudiera acceder a los datos personales de los usuarios. (De hecho,
introduciendo el nombre de un miembro de Facebook en el
buscador se puede ver su foto personal y la lista de sus amigos).
Algunos especialistas indican que uno de los detalles que los
usuarios deben tener en cuenta son las aplicaciones a las que
acceden dentro de las redes sociales. El caso más claro es el de
Facebook, que incluye un amplio abanico de aplicaciones, como
juegos de preguntas, encuestas sobre gustos musicales o
cinematográficos, clubs de fans, y un largo etcétera. Para acceder
a muchos de ellos el usuario debe consentir el acceso a sus datos
personales. Pero los creadores de estas aplicaciones son externos a
Facebook, por lo que el dueño de la cuenta está cediendo sus
datos a un desconocido. No es ninguna hipótesis. Un equipo de la
página web de la BBC demostró hace unos meses las grietas de
seguridad de Facebook. En un par de horas crearon un aplicación
y la introdujeron en la red social (algo que puede hacer cualquiera
con ciertos conocimientos de programación). Consiguieron sin
problemas los datos de varios usuarios y los de sus listas de
amigos.
Segu-Info, uno de los sitios de Seguridad de la Información más
reconocidos de Latinoamérica, realizó un informe en el que se
demuestra que el 47%, prácticamente la mitad, de los usuarios de
redes sociales aceptan contactos desconocidos.
Este informe demuestra lo sencillo que es establecer contacto con
cualquier tipo de persona, siendo un desconocido y sin brindar
ningún tipo de información adicional, más que un pedido expreso
a la persona que se desee contactar.
El fenómeno social de medir la "fama personal" por la cantidad de
contactos o comentarios en un sitio web, establecer una relación
virtual con cualquier persona y competir por la cantidad de
contactos puede tener un precio: nuestra privacidad, intimidad y
seguridad personal
En conclusión, las redes sociales plantean unos riesgos
potenciales que sólo empiezan a entreverse. Ante esta
circunstancia, la resolución de las agencias de protección de datos
advierten de que "es muy probable que el futuro surjan otros usos
no esperados de la información contenida en los perfiles de los
usuarios".
Para vivir sin sobresaltos en una red social
1. Suministrar sólo la información necesaria para que los amigos
le reconozcan.
2. Limitar el acceso a su página a sólo amigos.
El usuario suele introducir en su cuenta de la red social todo tipo
de datos personales: nombre, fecha de nacimiento, número de
teléfono y dirección, y hasta formación académica y gustos
musicales. En principio estos servicios suelen garantizar que es el
3. Recordar siempre que al introducir información en una red
social deja de ser privada, así como lo que haga en ella.
4. Eliminar las aplicaciones que no se usan y, al instalar una,
investigar quiénes son sus creadores y su política de privacidad.
6. REFERENCIAS
5. Leer también la política de privacidad de la red social.
[1] "INTRODUCCIÓN A LA MINERÍA DE DATOS"
5. CONCLUSIONES
La minería de datos, convierte una gran de cantidad datos, que por
si solos no tienen significado predictivo, en información valiosa
para determinar patrones de comportamiento.
Esta técnica puede emplearse en multitud de situaciones para
crear relaciones entre datos. Un ejemplo de esto es lo que se hace
en algo tan actual como las redes sociales.
Los usuarios metemos los datos ignorando el gran volumen de
información que le estamos proporcionando a la red.
De atributos como edad, sexo, tiempo que estamos conectados,
clase social, gustos sobre distintos productos se puede obtener
información del perfil de usuario de estas redes y predecir de
alguna manera su forma de actuar en relación al mercado entre
otras cosas. Algunas de las aplicaciones más controvertidas del
momento son la publicidad personalizada o la contratación en
base a las características obtenidas.
Por lo tanto, sabiendo que estos estudios se realizan, cada uno
debemos ser responsables de aquello que dejamos al uso de los
demás.
José Hernández Orallo, M.José Ramírez Quintana, Cèsar
Ferri Ramírez. Editorial Pearson, 2004. ISBN: 84 205 4091
[2] Estudio Zed Digital sobre redes sociales, percepción y
publicidad.
[3] http://www.tid.es/es/que-hacemos/investigacion-cientifica
[4] http://www.elpais.com/articulo/portada/mineria/datos/servici
o/publicidad/personalizada/elpepisupcib/20081106elpcibpor
_3/Tes
[5] http://ar.news.yahoo.com/s/17112008/44/n-technologyredes-sociales-mitad-acepta-contactos.html
[6] http://www.elpais.com/articulo/tecnologia/Sabe/Facebook/de
masiado/usuarios/elpeputec/20081101elpeputec_4/Tes