Introducción rápida a R
Introducción
En este documento interactivo vamos a ver las principales funciones de R, un lenguaje de programación orientado a la estadística y al procesado de datos.
R como calculadora
Podemos realizar cálculos sencillos:
El contenido de las celdas se puede editar.
Para ejecutar la celda solo hay que hacer clic en el botón ▶︎ Run Code
o escribir Shift+Enter(⏎)Shift+Enter(⏎).
También podemos realizar cálculos más complejos:
pi
aparece en rojo porque se trata del número π (3.1415…).
La prioridad de los operadores matemáticos en R es la habitual:
^ (exponente) ➤ -x, +x ➤ *, / ➤ +, -
Naturalmente se puede cambiar haciendo uso de los paréntesis.
Creación de variables
Podemos crear variables para facilitar los cálculos. Supongamos que queremos encontrar el área de un círculo de radio 4.
En primer lugar creamos la variable y asignamos su valor:
En R se asigna el valor a las variables utilizando una flecha, <-
, escrita con el <
(menor que) y - (guión).
Por defecto, R no muestra el valor de las variables. Para ver su valor, es necesario escribir el nombre de la variable y ejecutar la celda:
Si al ejecutar la celda anterior se obtiene un error Error: object 'radio' not found
es porque no se ha ejecutado la celda anterior en la que se creaba la variable.
Como sabemos que el área del círculo es \(\pi r^2\), ya podemos calcular el área:
En la mayor parte de las ocasiones nos interesará asignar el resultado de los cálculos a una variable:
Variables que son conjuntos de datos
Las variables en R son cajas en las que podemos meter más cosas, no solo números.
Imaginemos que queremos calcular el área de seis círculos que tienen como radios: 6, 3, 9, 1.5, 8 y 10. Podemos crear la variable radios
y asignar los seis valores:
Al crear un conjunto de datos es importante fijarse que antes del paréntesis hay una c
.
Realmente la c
es de combinación de los datos, pero personalmente me resulta más sencillo acordarme de conjunto.
A continuación calculamos las áreas:
En un solo paso hemos calculado las seis áreas.
Cálculo de estadísticos sencillos
Calcular la media, desviación estándar, etc. con R resulta muy sencillo.
Podemos obtener un resumen de los datos utilizando summary()
:
Si queremos calcular la media:
La desviación estándar muestral es:
Representación de gráficos
Diagrama de caja
Histograma
Representar un histograma en R es muy sencillo:
Se puede representar el histograma estandarizado:
Gráfico de dispersión
Deseamos estudiar si hay alguna relación entre los azúcares libres de vinos tintos y su pH, para ello representamos el gráfico de dispersión (xy):
Regresión lineal
En este caso, queremos ver si existe alguna relación lineal entre la densidad de los vinos tintos. Estos son los datos con los que trabajaremos:
Para realizar la regresión lineal tenemos que utilizar la instrucción lm
(linear model). La sintaxis es sencilla, solo hay que escribir la variable dependiente, la tilde (~, ) y la variable independiente:
En el caso de que deseemos más estadísticos del ajuste podemos utilizar summary
:
Añadir la recta con el ajuste es muy sencillo:
R almacena un buen número de variables sobre el ajuste, como pueden ser las predicciones o los residuos. Podemos ver todos los datos almacenados con la instrucción str
.
Por ejemplo, si queremos realizar un gráfico de residuos:
También podemos probar un modelo alternativo en el que la densidad dependa del logaritmo de la concentración de azúcar residual:
En R, log
es el logaritmo en base e. El logaritmo en base 10 es log10
.
Para seguir practicando
Esta versión web de R da problemas con el navegador Safari. En este caso, se recomienda utilizar otro navegador, como puede ser Firefox.