Introducción rápida a R

Autor/a

Javier Arántegui

Fecha de publicación

26 de febrero de 2024

Fecha de modificación

8 de marzo de 2024

Introducción

En este documento interactivo vamos a ver las principales funciones de R, un lenguaje de programación orientado a la estadística y al procesado de datos.

R como calculadora

Podemos realizar cálculos sencillos:

Tip

El contenido de las celdas se puede editar.

Para ejecutar la celda solo hay que hacer clic en el botón ▶︎ Run Code o escribir Shift+Enter(⏎).

También podemos realizar cálculos más complejos:

Nota

pi aparece en rojo porque se trata del número π (3.1415…).

Tip

La prioridad de los operadores matemáticos en R es la habitual:

^ (exponente) ➤ -x, +x ➤ *, / ➤ +, -

Naturalmente se puede cambiar haciendo uso de los paréntesis.

Creación de variables

Podemos crear variables para facilitar los cálculos. Supongamos que queremos encontrar el área de un círculo de radio 4.

En primer lugar creamos la variable y asignamos su valor:

Importante

En R se asigna el valor a las variables utilizando una flecha, <-, escrita con el < (menor que) y - (guión).

Por defecto, R no muestra el valor de las variables. Para ver su valor, es necesario escribir el nombre de la variable y ejecutar la celda:

Advertencia

Si al ejecutar la celda anterior se obtiene un error Error: object 'radio' not found es porque no se ha ejecutado la celda anterior en la que se creaba la variable.

Como sabemos que el área del círculo es \(\pi r^2\), ya podemos calcular el área:

En la mayor parte de las ocasiones nos interesará asignar el resultado de los cálculos a una variable:

Variables que son conjuntos de datos

Las variables en R son cajas en las que podemos meter más cosas, no solo números.

Imaginemos que queremos calcular el área de seis círculos que tienen como radios: 6, 3, 9, 1.5, 8 y 10. Podemos crear la variable radios y asignar los seis valores:

Importante

Al crear un conjunto de datos es importante fijarse que antes del paréntesis hay una c.

Realmente la c es de combinación de los datos, pero personalmente me resulta más sencillo acordarme de conjunto.

A continuación calculamos las áreas:

En un solo paso hemos calculado las seis áreas.

Cálculo de estadísticos sencillos

Calcular la media, desviación estándar, etc. con R resulta muy sencillo.

Podemos obtener un resumen de los datos utilizando summary():

Si queremos calcular la media:

La desviación estándar muestral es:

Representación de gráficos

Diagrama de caja

Histograma

Representar un histograma en R es muy sencillo:

Se puede representar el histograma estandarizado:

Gráfico de dispersión

Deseamos estudiar si hay alguna relación entre los azúcares libres de vinos tintos y su pH, para ello representamos el gráfico de dispersión (xy):

Regresión lineal

En este caso, queremos ver si existe alguna relación lineal entre la densidad de los vinos tintos. Estos son los datos con los que trabajaremos:

Para realizar la regresión lineal tenemos que utilizar la instrucción lm (linear model). La sintaxis es sencilla, solo hay que escribir la variable dependiente, la tilde (~, ) y la variable independiente:

En el caso de que deseemos más estadísticos del ajuste podemos utilizar summary:

Añadir la recta con el ajuste es muy sencillo:

R almacena un buen número de variables sobre el ajuste, como pueden ser las predicciones o los residuos. Podemos ver todos los datos almacenados con la instrucción str.

Por ejemplo, si queremos realizar un gráfico de residuos:

También podemos probar un modelo alternativo en el que la densidad dependa del logaritmo de la concentración de azúcar residual:

Advertencia

En R, log es el logaritmo en base e. El logaritmo en base 10 es log10.

Para seguir practicando

Versión web de R

Advertencia

Esta versión web de R da problemas con el navegador Safari. En este caso, se recomienda utilizar otro navegador, como puede ser Firefox.