TodЛs somos políticЛs. TodЛs hacemos política.

R es un lenguaje de programación orientado a la estadística lanzado por Robert Gentleman y Ross Ihaka en 1994. La principal ventaja que tiene frente a otros paquetes estadísticos como SPSS, SAS o STATA es que es gratuito y de código abierto. También está integrado con múltiples plataformas y se puede trabajar con él en dispositivos con sistemas operativos distintos. R se orienta a la reproducibilidad al trabajar con scripts de código (salvo que usemos Rcommander, una buena opción para aprender con una interfaz de menús). Esto permite que un script se pueda ejecutar por varios usuarios llegando al mismo resultado. Pero la gran virtud de R está en su comunidad, que desarrolla paquetes, ofrece ayuda para cualquier problema y organiza eventos para difundir las posibilidades de este lenguaje de programación.

Además de estas utilidades generales, R para las ciencias sociales permite automatizar procesos que pueden resultar laboriosos de realizarse manualmente, organizar y tener un registro replicable de todos los procedimientos realizados durante una investigación y acceder a múltiples paquetes. Estos paquetes van desde el análisis estadístico tradicional hasta aplicaciones más innovadoras como la descarga de tweets o el web-scrapping.

Cuando buscamos cursos para aprender R, a menudo nos topamos con que utilizan datasets de coches o vuelos. El objetivo de esta serie de posts es acercar R a profesionales y estudiantes del ámbito de las ciencias sociales. Por ello, utilizaremos datos de la encuesta postelectoral de las generales de 2019 y la serie temporal de ubicación ideológica del Partido Popular desde que el Centro de Investigaciones Sociológicas lo empezase a preguntar en enero de 1989.

Este proyecto no deja de ser una breve introducción, por lo que no aprenderás todas las funcionalidades de R. Es, más bien, una pequeña guía para orientar el aprendizaje, que deberá ser completada con otros cursos, búsquedas en Google y Stackoverflow y con la propia práctica. Recomiendo enormemente que descargues un conjunto de datos de tu interés y vayas replicando lo que voy haciendo aquí.

Si partes de cero, Internet está lleno de recursos para aprender lo básico. Algunas de mis recomendaciones son:

También recomiendo el libro de Jesús Bouso El paquete estadístico R, de la colección Cuadernos Metodológicos del CIS.

No obstante, si no tienes el tiempo necesario para hacer un curso de introducción (aunque es casi imprescindible), el mínimo para seguir esta serie se resume en lo siguiente:

  • El software más común para programar con R es RStudio. Este programa contiene, entre otros y en una interfaz visual amigable, la consola de R y una ventana para escribir scripts (que son una especie de documentos donde se escribe el código que después se ejecutará).
  • El símbolo <- crea un objeto y le asigna un valor, que puede ir desde un simple número hasta todo un conjunto de datos (el típico fichero de microdatos en .sav del CIS) o una sucesión de comandos que crea un gráfico.
  • Los comandos ejecutan acciones determinadas por lo que se escribe entre los paréntesis que la acompañan.
  • Si escribes código y no pones <-, no lo asignarás a un objeto y no se guardará dentro del entorno de cara a las siguientes operaciones.
  • El símbolo %>% se llama pipe, proviene del paquete magrittR y sirve para concatenar código de cara a facilitar su programación y lectura.

Estos mínimos pueden sonar abstractos si nunca has programado y extremadamente fáciles si ya tienes una base de R. Si estás en el primer caso, conforme la serie se vaya desarrollando podrás verlo de forma más práctica. Si estás en el segundo, espero tratar algún contenido de tu interés que resulte útil. En el próximo post importaremos los datos y comenzaremos con algo de visualización con el paquete ggplot2, uno de los más utilizados.