Participantes

  • DeustoTech - Deusto Institute of Technology
  • Irontec

Financiado por

  • Eusko Jaurlaritza -

AztarNet -- Herramienta para el análisis de la huella online empresarial en social media

Fecha de inicio: Septiembre 2014
Fecha de fin: Agosto 2016

Con la aparición de las redes sociales la cantidad de información disponible para ser analizada ha crecido exponencialmente. Redes como Twitter tienen más de 241 millones de usuarios activos al mes y más de 500 millones de tweets al día . Facebook por su parte tiene más de 1.310 millones de usuarios activos al mes, de los que el 48% se loggea diariamente, con más de 54 millones de páginas . Los usuarios comparten sus experiencias, opiniones y reacciones con otros usuarios, formando lazos sociales y proporcionando un dataset de opiniones increíblemente basto y complejo. Estas opiniones abarcan diversos temas, desde las noticias del día hasta las reacciones a nuevos productos o campañas publicitarias. Esta cantidad de información permite observar el proceso de creación marca y la formación de las opiniones desde una perspectiva única, pudiendo observar su evolución a lo largo del tiempo o su difusión geográfica. Es a su vez un conjunto de datos ideal sobre el que aplicar diferentes técnicas de análisis de datos. Las interacciones sociales pueden ser usadas para construir un grafo de relaciones.

Este a su vez podrá ser usado, utilizando técnicas de Social Network Analysis, para identificar a los principales responsables de formar las opiniones y difundirlas, así como descubrir cuáles son las comunidades de usuarios que se generan de manera dinámica alrededor de dichas comunidades. Por otro lado también se puede analizar el contenido de las opiniones con diferentes técnicas de procesado del lenguaje natural. Algoritmos de Sentiment Analysis y Opinion Mining pueden ser usados para identificar los diferentes componentes de las opiniones y asignarles una polaridad, para de esta manera poder evaluar automáticamente dichas opiniones. Técnicas de NER (Named Entity Recognition) pueden ser utilizadas para identificar a los elementos mencionados en las opiniones. El NER es una subtarea de la recuperación de información que trata de identificar y clasificar entidades singulares en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes… Una vez identificadas las entidades podrán ser enlazadas con datasets de Linked Open Data, para de esta manera poder identificarlas unívocamente.

Los objetivos del proyecto son:

  1. Crear una herramienta que permita analizar y comprender la “huella online” de las compañías.
  2. Esta “huella digital” podrá ser específica de un periodo de tiempo (por ejemplo analizar los resultados de una campaña o nuevo producto) o un análisis general de la imagen de la compañía online.
  3. Crear un mecanismo de búsqueda de información que permita explorar diferentes fuentes de social media para poder extraer los datos a ser analizados.
  4. Implementar mecanismos de sentiment analysis y opinión mining que permitan identificar la polaridad de las opiniones vertidas así como las diferentes partes que componen la opinión.
  5. Desarrollar un módulo de social network analysis que permita identificar a los diferentes tipos de actores (creadores de opinión, seguidores…) y comunidades dentro de la red social de opiniones sobre una empresa.
  6. Crear un mecanismo que fusione estos análisis en un informe que permita evaluar las tendencias de opinión sobre una empresa.
  7. Crear visualizaciones que ayuden a interpretar los resultados obtenidos de manera sencilla.

Descripción

Para poder alcanzar el objetivo del proyecto AztarNet de poder evaluar la huella digital que las organizaciones crean, será necesario analizar las reacciones a las diferentes decisiones que tome la empresa objetivo. Para poder realizar este análisis la herramienta propuesta se encontrará dividida en tres capas: la capa de captura de datos, la capa de análisis y la capa de visualización. En la capa de captura de datos la herramienta recogerá dos tipos diferentes de datos, las opiniones de los usuarios y los metadatos que las describen. Esta capa se encuentra dividida en dos módulos:

  1. Módulo de extracción de metadatos: será el encargado de extraer los metadatos de cada plataforma de social media. Los metadatos disponibles variarán de plataforma en plataforma, por lo que será necesario adaptar el proceso a cada una de ellas. Estos metadatos serán utilizados para construir un grafo que indique las interacciones sociales que se crean alrededor de las opiniones sobre la empresa objetivo. Estos metadatos serán posteriormente utilizados por el módulo de Social Network Analysis.
  2. Módulo de Webscrapping: Este módulo se encargará de recolectar el contenido de las opiniones vertidas por los usuarios. Esta información será utilizada por los módulos de Opinion Mining y Named Entity Recognition en la capa de proceso de datos.

La capa de proceso de datos trabajará a dos niveles distintos. Por un lado analizará las opiniones individuales, identificando sus componentes y polarizad y reconociendo las entidades nombradas. Por otro lado, analizará los metadatos de dichas opiniones y como se relacionan, para identificar las dinámicas sociales creadas en torno a las opiniones. Esta capa se dividirá en tres módulos:

  1. Módulo de Social Network Analysis: Este módulo se encargará de analizar las relaciones sociales entre las diferentes personas que opinan sobre la empresa objetivo. Mediante el análisis de las centralidades del grafo formado, este módulo será capaz de identificar a los principales actores en el proceso de formación de las opiniones, pudiendo identificar a aquellas personas que más influencia tienen sobre las mismas. Del mismo modo, mediante técnicas de reconocimiento de comunidades como k-Core, k-Corona o maximización de la modularidad mediante el algoritmo de Louvain se identificarán a las comunidades que se crean dinámicamente en torno a las opinones. El análisis de las dinámicas sociales permitirá entender y analizar el proceso de creación de opiniones.
  2. Módulo de Opinion Mining: Este módulo será el encargado de analizar las opiniones de los usuarios mediante técnicas de sentiment analysis y opinion min ing. Mediante el uso de estas técnicas el modulo identificará las diferentes partes que forman así como asignar polaridad a las mismas (positiva o negativa). Esto permitirá analizar las opiniones y poder evaluar cuál es la imagen que tienen los usuarios de la empresa.
  3. Módulo de Named Entity Recognition (NER): El NER es una subtarea de la recuperación de información que trata de identificar y clasificar entidades singulares en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes… Una vez identificadas las entidades, este módulo tratará también de enlazar las mismas con datasets de Linked Open Data, para de esta manera poder identificarlas unívocamente.

Por último la capa de visualización se encargará de presentar los análisis obtenidos a los usuarios. Por un lado se creará un informe que contendrá un resumen de los datos analizados y por otro la herramienta dispondrá de un interfaz web mediante el que interactuar con la misma.

  1. Módulo de Summarization: Este módulo será el encargado de fusionar los resultados de los diferentes análisis y crear un resumen con las inferencias obtenidas. Este resumen mostrará
  2. Aplicación web: El interfaz web permitirá al usuario interactuar con la herramienta desarrollada, pudiendo configurar el análisis a llevar a cabo y utilizar diferentes visualizaciones de los resultados obtenidos.

Contacto

Para información adicional, por favor, contacte con Dr. Aitor Almeida: aitor.almeida [ARROBA] deusto.es