La idea

MarcoPolo es una plataforma para navegar por las palabras utilizadas en la red social Twitter por los partidos políticos y sus candidatos desde octubre de 2015 hasta junio de 2016 en España, lo que incluye dos campañas de elecciones generales.

El proyecto del que forma parte asume un paralelismo entre los marcos semánticos de la lingüística cognitiva y las coocurrencias de la lingüística de corpus.

Los marcos nos explican que los significados de las palabras se construyen a través de su uso y dependen crucialmente de cómo se utilizan: junto a qué otros términos, en qué contexto, etc.
Las coocurrencias son las estadísticas de qué palabras se utilizan habitualmente juntas en los mismos contextos.

La aplicación Marcos nos permite ver qué significado tienen las palabras para cada partido político a través de los conceptos con los que los relacionan.

Los mensajes

Los datos se han obtenido de los más de 116.000 mensajes que los cinco partidos políticos más votados y sus candidatos publicaron en los nueve meses bajo estudio. Como se ve en la siguiente tabla, la cantidad de tuits varía entre partidos y candidatos por los diversos ritmos de publicación que estos tuvieron. También se evidencia un uso diferente de las cuentas de los candidatos: vemos, por ejemplo, que Pablo Iglesias es quien menos publicó a pesar de que su partido, Podemos, fue el más activo en la red.

Podemos	26.207
IU	20.108
Ciudadanos	19.725
PSOE	18.347
PP	13.358
A. Garzón	4.538
P. Sánchez	4.510
M. Rajoy	4.296
A. Rivera	4.296
P. Iglesias	1.625

Los resultados se presentan en la aplicación sumando los textos de cada candidato con los de su partido, una decisión que tomamos para conseguir estadísticas mejor fundamentadas dada la brevedad de los mensajes. En aquel momento, los tuits podían tener una extensión máxima de 140 caracteres.

¿Qué vemos en MarcoPolo?

En la parte superior izquierda hay un buscador para elegir el término que se desea consultar. Las palabras aparecen listadas en dos recuadros para facilitar la búsqueda. El primero las muestra de mayor a menor frecuencia en el corpus general (el verbo “poder” es la palabra más frecuente). La segunda muestra solo aquellos términos que, además de los datos y los gráficos, tienen un texto descriptivo elaborado por el equipo de Wor(l)ds Lab.

Debajo se encuentra el selector de corpus donde pueden elegirse qué partidos nos interesan (aparecen todos seleccionados por defecto).

Una vez elegida una palabra, aparecerán las siguientes informaciones en la pantalla, divididas en pestañas (que pueden recorrerse con los cursores):

Análisis detallado realizado por el equipo del proyecto (sólo para algunas palabras).
Gráficos en los que aparecen las coocurrencias clasificadas según la relación con la palabra que hayamos buscado. Para un nombre como “educación”, por ejemplo, tendremos un gráfico con los modificadores que aparecen con él (como “educación pública”), los verbos con los que se utiliza como sujeto (“la educación evita”), etc.
- El círculo gris exterior representa los casos más destacados en el corpus general.
  - Las palabras aparecen ordenadas en el sentido de las manillas del reloj según su frecuencia.
  - El tamaño de los sectores representa la frecuencia de cada palabra.
  - Al pasar el cursor sobre cada sector, aparece la palabra junto al dato de su frecuencia.
  - Cada sector del círculo es un enlace a la página del término correspondiente para facilitar la navegación por los marcos.
- Los círculos concéntricos de colores muestran lo mismo de cada candidato/partido. De esta forma, es fácil observar qué relaciones son particulares de cada agrupación. Los partidos están ordenados desde el exterior de mayor a menor según el número de ejemplos que tengan con la palabra analizada.
Debajo de cada gráfico, están las tablas mostrando las frecuencias exactas que se han utilizado para dibujar el gráfico.

Es importante tener en cuenta que los textos se han analizado morfológicamente y se han desambiguado -en un proceso previo a la elaboración de los gráficos- de forma automática. Aunque el sistema es muy eficaz, existirán inevitablemente errores que pueden llevar a que, por ejemplo, un verbo sea interpretado como un nombre (o viceversa) en algún caso. Asumimos esos posibles errores sabiendo que lo que obtenemos a cambio es más valioso: el análisis de millones de palabras que no podríamos haber estudiado manualmente.

La parte técnica

No hay ningún requisito técnico para poder utilizar la aplicación salvo la recomendación de que no se haga a través de dispositivos pequeños. MarcoPolo no está diseñado en su versión actual para adaptarse a pantallas con poco espacio.

En cuanto a la construcción y el procesamiento del corpus, los mensajes fueron descargados automáticamente a través de la API de Twitter en el mismo momento de su publicación. Esto lo hicimos con un sencillo script en python que utilizaba el módulo libre tweepy. De esta manera, hemos podido conservar los mensajes incluso en aquellos casos en los que hayan sido borrados posteriormente de esa red social.

Las co-ocurrencias han sido obtenidas utilizando la API de Sketch Engine. Se han tomado los casos más relevantes, calculados con logDice (según se explica en Adam Kilgarriff, Vít Baisa, Jan Bušta, Miloš Jakubícek, Vojtech Kovár, Jan Michelfeit, Pavel Rychlý, Vít Suchomel. 2014. The Sketch Engine: ten years on. In Lexicography 1(1): 7–36).

Los resultados se ordenan en las tablas y en los gráficos de mayor a menor según su frecuencia absoluta de uso, no según el valor de logDice. Este orden se representa en las circunferencias siguiendo las manillas del reloj. La web está diseñada en HTML5, CSS3 y Javascript, con algunas partes en jQuery. La librería de presentación que hemos utilizado es Bootstrap y la librería encargada de los gráficos en anillos es ChartJS, ambas con licencia libre.

Los estudios

La información mostrada en MarcoPolo ha sido utilizada para estudios diversos. Pueden consultarse en la página de investigación del proyecto.

Los datos expuestos en MarcoPolo pueden utilizarse libremente para otras investigaciones con la única condición de que se reconozca su uso citando esta página y:

Ruiz-Sánchez, A. & Alcántara-Plá, M. 2018. “Las campañas electorales en las redes sociales. El ejemplo de Twitter en España“, en El análisis del discurso político: géneros y metodologías, EUNSA.