Desvelando las cámaras de eco en Twitter: los co-retweeters

Hay muchas formas de realizar amplificación artificial de mensajes en las plataformas: coordinación temporal, automatización, similitud textual, cámaras de eco que difunden los mismos mensajes o el uso estratégico de influencers. Todas estas acciones generan una desproporción entre el número de propagaciones y de visualizaciones.

Mi colega Marcelino Madrigal (aka @SoyMmadrigal), que me saca siete leguas en esto de enredar, empezó a desarrollar unos scripts para medir todos estos casos. Sin embargo, a mí el que me llamó más la atención fue el de las cámaras de eco. Gracias a él no empecé desde cero, pero desarrollé mi propio algoritmo. Finalmente pudimos contrastar los resultados con la satisfacción de que coincidían al 100%.

Dentro de las cámaras de eco existen unos perfiles, que llamaremos co-retweeters porque coinciden al difundir los mismos mensajes. Que dos personas no coordinadas retuiteen los mismos mensajes más de n veces es poco probable. Pero que esto ocurra con cientos de perfiles es aún más difícil.

El principal problema para detectar a los co-retweeters es que tenemos que comparar todos los perfiles entre ellos y cuanto mayor sea el dataset, más inabordable puede resultar el tiempo de ejecución y consumo de memoria. Por ese motivo es necesario definir unos parámetros para acotar el problema.

Tras muchas idas y venidas hemos definido unos parámetros con unos valores por defecto, aunque se pueden ajustar a las características del dataset.

Parámetros

Min_retweets_msg = 50: descarta los mensajes con el número de RTs menor que este parámetro. Este valor no es muy restrictivo y puede hacer el dataset más fácil de procesar sin perder la detección de los co-retweeters.

max_retweets_msg = 10000: descarta los mensajes con el número de RTs mayor que este parámetro. Si se disminuye este valor para descartar tweets virales, el tiempo de ejecución disminuye drásticamente. No obstante, puede alterar el resultado al generar un contador de co-retweets mucho menor o no detectar a los que se coinciden solo en tweets virales.

min_shared_tweets = 50: Este parámetro pone el umbral de número de coincidencias al retuitear para considerar a dos perfiles co-retweeters. Antes de procesar descarta a los usuarios que han retuiteado menos que este valor, ya que no entrarían en el grupo de co-retweeters. Cuanto más alto sea este valor, menor será el número de co-retweeters.

percen_co_retweeters = 20: es el porcentaje de usuarios con más co-retweeters. Este parámetro descarta a los perfiles cuyo número de co-retweeters está por debajo este porcentaje. Sirve para aligerar el tiempo de ejecución de los grafos y delimitar a los co-retweeters más coincidentes. En datasets con poca cocurrencia, se aconseja que el porcentaje sea 100.

Para que se entienda mejor el concepto vamos a utilizar el dataset con los tweets de la pasada vuelta a España que quedó interrumpida por las protestas contra el equipo de Israel.

Co-retweeters en LaVuelta

KPIs: Original vs Filtrado

En una primera fase se filtra el dataset según los parámetros establecidos: aquellos tweets con menos de 50 RTs o con más de 10.000 y los perfiles con menos de 50 RTs. Esto reduce drásticamente en casi setenta veces el número de retweeters y en casi cuatro veces los retweets.

Detección de co-retweeters

Después del filtrado del dataset, solo hay que aplicar el algoritmo a 3.921 perfiles que han generado 368.671 retweets. Para ello, para cada perfil se examina con qué perfiles tiene coincidencia y cuantas veces. El resultado de las parejas que tienen más de 50 coincidencias se va consolidando en un fichero para que no se desborde la memoria. Para evitar dobles parejas, los perfiles examinados se ignoran en las siguientes iteraciones.

Detección de comunidades de co-retweeters

En este caso se han seleccionado el 100% de los co-retweeters, es decir, con que tengan al menos un co-retweeter se tienen en cuenta para detectar las comunidades.  Han aflorado dos comunidades de diferente tamaño y diferente actividad.

La distribución de los miembros de la comunidad rosa muestra que el grupo más frecuente son los que tienen entre 1 y 100 co-retweeters y que existen 2 perfiles que llegan a tener entre 1.100-1.120 co-retweeters.

En la comunidad azul el grupo más frecuente es el que tiene de 1 a 50 co-retweeters y que tan solo un miembro tiene entre 350 y 400 co-retweeters

A más actividad, más co-retweeters, pero hay un punto de saturación, que alguna manera delimita el tamaño de la cámara de eco. En el caso de la comunidad rosa, por debajo de 1.112.

En la comunidad azul no se aprecia esta saturación y la correlación es menor

Los Beneficiarios

Hasta este momento no sabemos cuál es la naturaleza de la cámara de eco. Podríamos deducirlo por las características de los miembros con más co-retweeters, pero resulta más revelador hacerlo por las relaciones entre los co-retweeters y los retuiteados, a los que vamos a llamar beneficiarios.

El layout aplicado es Force Atlas-2 con los siguientes parámetros:

  • iterations = 300
  • gravity = 2
  • linlog = TRUE

Para generar un etiquetado claro de los nodos, solo se muestran aquellos que se encuentran en el grupo del 30% con más grado. Se utiliza la opción de repel para evitar que se solapen, en la medida de los posible.

El color de los nodos beneficiarios es siempre naranja y el de los co-retweeters el de su comunidad.

Las aristas son del color del nodo origen, es decir de los co-retweeeters.

En el caso de la comunidad rosa, se aprecia una gran variedad de beneficiarios. Los más destacados son activistas o políticos cercanos a Podemos. Entre todos ellos sobresale @FonsiLoaiza.

En la comunidad azul están más distribuidos los beneficiarios. Destacan medios y periodistas conservadores y activistas o políticos de derecha radical. Sobresale @GuajeSalvaje

Este es el informe automático que genero para los co-retweeters. Es una maravilla que los grafos se hagan solos

Mariluz Congosto

La que escribe este blog es Mariluz Congosto mujer curiosa e inquieta. Tras cumplir las bodas de plata con el trabajo he tenido la oportunidad de hacer lo que realmente me gusta: investigar. Mi trayectoria profesional ha transcurrido por el mundo de la Investigación y Desarrollo salvo en un pequeño paréntesis desde 1984 a 1986 en que trabajé para la Administración Local. La vida laboral desgasta las ilusiones por lo que busqué una actividad que me diera la ilusión que antes tenía y la encontré con un retorno al pasado: La Universidad. Aquí estoy con toda una experiencia acumulada que no me pesa como una losa sino que me llena de ideas y de ganas de hacer cosas y que me ha permitido alcanzar el objetivo de ser doctora.

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *