Elementos básicos del lenguaje R

Fecha de publicación

12 de noviembre de 2023

Objetivo del manual

Familiarizarse con los bloques básicos usados en la programación en R
Conocer las fuentes principales de documentación estandarizada en R

1 ¿Qué es R?

Un Lenguaje de Dominio Específico (DSL) libre para la estadística y el análisis de datos
Una colección de más de 18695 paquetes (al sep-21-2022)
Una comunidad grande y activa en la industria y el mundo académico
Una forma de hablar “directamente” con su ordenador

Históricamente:

Basado en el lenguaje de programación S
Alrededor de 20 años de antigüedad (el linaje data de 1975 - hace casi 40 años)

2 Rstudio

Entorno de desarrollo integrado (IDE) para R. Incluye:

Una consola
Editor para resaltar la sintaxis que soporta la ejecución directa del código
Herramientas para el trazado, el historial, la depuración y la gestión del espacio de trabajo

3 Elementos del lenguaje R

Vectores
Listas
Matrices
Marcos de datos (data frames)
Funciones (incluyendo operadores)
Tablas (tables)
Atributos
~~Arreglos (arrays)~~
~~Ambientes~~

4 Estructura básica de la representación de datos

La estructura de datos básica en R es el vector. Hay dos tipos básicos de vectores: vectores atómicos y listas.

Tienen tres propiedades comunes:

Tipo, typeof() (clase/modo ~)
Longitud, length() (número de elementos)
Attributes, attributes() (metadatos)

Se diferencian en los tipos de sus elementos: todos los elementos de un vector atómico deben ser del mismo tipo, mientras que los elementos de una lista pueden tener diferentes tipos

	Homogéneo	Heterogéneo
1d	Vector atómico	Lista
2d	Matriz	Cuadro de datos (data frame)
nd	arreglo (Array)

Los números o cadenas individuales son en realidad vectores de longitud uno.

4.1 Vectores atomicos

Tipos de vectores atómicos:

Lógico (booleano)
Entero
Numérico (doble)
Caracteres

Los vectores se construyen con la función c():

Código


x <- 1
x1 <- c(1)

all.equal(x, x1)
## [1] TRUE

class(x)
## [1] "numeric"

y <- "something"

class(y)
## [1] "character"

w <- 1L

class(w)
## [1] "integer"
 
z <- TRUE

class(z)
## [1] "logical"

q <- factor(1)

class(q)
## [1] "factor"

Los vectores sólo pueden contener elementos del mismo tipo. Los tipos diferentes de elementos serán forzados al tipo más flexible:

Código


v <- c(10, 11, 12, 13)

class(v)
## [1] "numeric"

typeof(v)
## [1] "double"

is.integer(v)
## [1] FALSE

y <- c("Amazona", "Ara", "Eupsittula", "Myiopsitta")

class(y)
## [1] "character"

is.integer(y)
## [1] FALSE

x <- c(1,2,3, "Myiopsitta")

x
## [1] "1"          "2"          "3"          "Myiopsitta"

class(x)
## [1] "character"

Los valores que faltan se especifican con NA, que es un vector lógico de longitud 1. NA siempre será interpretado al tipo correcto si se utiliza dentro de c():

Código


v <- c(10, 11, 12, 13, NA)

class(v)
## [1] "numeric"

v <- c(letters[1:3], NA)

class(v)
## [1] "character"

4.2 Listas

Puede contener objetos de diferentes clases y tamaños. Las listas se construyen con list():

Código

l <- list(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, 4, 5), observed = c(FALSE, TRUE, FALSE, FALSE, FALSE))

l

$ID
[1] "a" "b" "c" "d" "e"

$size
[1] 1 2 3 4 5

$observed
[1] FALSE  TRUE FALSE FALSE FALSE

Código

class(l)

[1] "list"

Código

str(l)

List of 3
 $ ID      : chr [1:5] "a" "b" "c" "d" ...
 $ size    : num [1:5] 1 2 3 4 5
 $ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE

… y dimensiones:

Código

l <- list(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, 4, 5, 6), observed = c(FALSE, TRUE, FALSE, FALSE, FALSE), l)

str(l)

List of 4
 $ ID      : chr [1:5] "a" "b" "c" "d" ...
 $ size    : num [1:6] 1 2 3 4 5 6
 $ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE
 $         :List of 3
  ..$ ID      : chr [1:5] "a" "b" "c" "d" ...
  ..$ size    : num [1:5] 1 2 3 4 5
  ..$ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE

Código

l2 <- list(l, l)

str(l2)

List of 2
 $ :List of 4
  ..$ ID      : chr [1:5] "a" "b" "c" "d" ...
  ..$ size    : num [1:6] 1 2 3 4 5 6
  ..$ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE
  ..$         :List of 3
  .. ..$ ID      : chr [1:5] "a" "b" "c" "d" ...
  .. ..$ size    : num [1:5] 1 2 3 4 5
  .. ..$ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE
 $ :List of 4
  ..$ ID      : chr [1:5] "a" "b" "c" "d" ...
  ..$ size    : num [1:6] 1 2 3 4 5 6
  ..$ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE
  ..$         :List of 3
  .. ..$ ID      : chr [1:5] "a" "b" "c" "d" ...
  .. ..$ size    : num [1:5] 1 2 3 4 5
  .. ..$ observed: logi [1:5] FALSE TRUE FALSE FALSE FALSE

4.3 Nombrar elementos

Los vectores pueden ser nombrados de tres maneras:

Al crearlo: x <- c(a = 1, b = 2, c = 3).
Al modificar un vector existente en su lugar: x <- 1:3; names(x) <- c("a", "b", "c") O bien: x <- 1:3; names(x)[[1]] <- c("a")
Creando una copia modificada de un vector: x <- setNames(1:3, c("a", "b", "c"))

Código

y <- c(a = 1, 2, 3)

names(y)

[1] "a" ""  ""

Código

v <- c(1, 2, 3)

names(v) <- c('a')

names(v)

[1] "a" NA  NA

Código

z <- setNames(1:3, c("a", "b", "c"))

names(z)

[1] "a" "b" "c"

4.4 Factores

Los atributos se utilizan para definir los factores. Un factor es un vector que sólo puede contener valores predefinidos y se utiliza para almacenar datos categóricos.

Los factores se construyen sobre vectores enteros utilizando dos atributos:

clase “factor”: hace que se comporten de forma diferente a los vectores enteros normales
niveles: define el conjunto de valores permitidos

Código

x <- factor(c("a", "b", "b", "a"))
x

[1] a b b a
Levels: a b

Código

levels(x)

[1] "a" "b"

Código

str(x)

 Factor w/ 2 levels "a","b": 1 2 2 1

Los factores parecen vectores de caracteres, pero en realidad son números enteros:

Código

x <- factor(c("a", "b", "b", "a"))

c(x)

[1] a b b a
Levels: a b

4.5 Matrices

Todas los elementos son del mismo tipo:

Código

m <- matrix(c(1, 2, 3, 11, 12, 13), nrow = 2)

dim(m)

[1] 2 3

Código

     [,1] [,2] [,3]
[1,]    1    3   12
[2,]    2   11   13

Código

class(m)

[1] "matrix" "array"

Código

m <- matrix(c(1, 2, 3, 11, 12,"13"), nrow = 2)
m

     [,1] [,2] [,3]
[1,] "1"  "3"  "12"
[2,] "2"  "11" "13"

Se puede crear modificando el atributo de dimensión:

Código

c <- 1:6

is.matrix(c)

[1] FALSE

Código

attributes(c)

NULL

Código

dim(c) <- c(3, 2)

c

     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

Código

is.matrix(c)

[1] TRUE

Código

attributes(c)

$dim
[1] 3 2

4.6 Cuadros de datos (Data frames)

Caso especial de las listas. Puede contener elementos de diferentes tipos:

Código

m <- data.frame(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, 4, 5), observed = c(FALSE, TRUE, FALSE, FALSE, FALSE))

dim(m)

[1] 5 3

Código

ID	size	observed
a	1	FALSE
b	2	TRUE
c	3	FALSE
d	4	FALSE
e	5	FALSE

Código

class(m)

[1] "data.frame"

Código

is.data.frame(m)

[1] TRUE

Código

is.list(m)

[1] TRUE

Código

str(m)

'data.frame':   5 obs. of  3 variables:
 $ ID      : chr  "a" "b" "c" "d" ...
 $ size    : num  1 2 3 4 5
 $ observed: logi  FALSE TRUE FALSE FALSE FALSE

Pero los vectores deben tener la misma longitud:

Código

m <- data.frame(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, 4, 5, 6), observed = c(FALSE, TRUE, FALSE, FALSE, FALSE))

Error in data.frame(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, : arguments imply differing number of rows: 5, 6

4.7 Extraer subconjuntos usando indexación (indexing)

Los elementos dentro de los objetos pueden ser llamados por medio de la indexación. Para sub-conjuntar un vector simplemente llame a la posición del objeto usando corchetes:

Código

x <- c(1, 3, 4, 10, 15, 20, 50, 1, 6)

x[1]

[1] 1

Código

x[2]

[1] 3

Código

x[2:3]

[1] 3 4

Código

x[c(1,3)]

[1] 1 4

Los elementos se pueden eliminar de la misma manera:

Código

x[-1]

[1]  3  4 10 15 20 50  1  6

Código

x[-c(1,3)]

[1]  3 10 15 20 50  1  6

Las matrices y los marcos de datos requieren 2 índices [fila, columna]:

Código

m <- matrix(c(1, 2, 3, 11, 12, 13), nrow = 2)

m[1, ]

[1]  1  3 12

Código

m[, 1]

[1] 1 2

Código

m[1, 1]

[1] 1

Código

m[-1, ]

[1]  2 11 13

Código

m[, -1]

     [,1] [,2]
[1,]    3   12
[2,]   11   13

Código

m[-1, -1]

[1] 11 13

Código

df <- data.frame(family = c("Psittacidae", "Trochilidae", 
                            "Psittacidae"), 
  genus = c("Amazona", "Phaethornis", "Ara"), 
    species = c("aestiva", "philippii", "ararauna"))

df

family	genus	species
Psittacidae	Amazona	aestiva
Trochilidae	Phaethornis	philippii
Psittacidae	Ara	ararauna

Código

df[1, ]

family	genus	species
Psittacidae	Amazona	aestiva

Código

df[, 1]

[1] "Psittacidae" "Trochilidae" "Psittacidae"

Código

df[1, 1]

[1] "Psittacidae"

Código

df[-1, ]

	family	genus	species
2	Trochilidae	Phaethornis	philippii
3	Psittacidae	Ara	ararauna

Código

df[, -1]

genus	species
Amazona	aestiva
Phaethornis	philippii
Ara	ararauna

Código

df[-1, -1]

	genus	species
2	Phaethornis	philippii
3	Ara	ararauna

Código

df[,"family"]

[1] "Psittacidae" "Trochilidae" "Psittacidae"

Código

df[,c("family", "genus")]

family	genus
Psittacidae	Amazona
Trochilidae	Phaethornis
Psittacidae	Ara

Las listas requieren 1 índice entre dobles corchetes [[índice]]:

Código

l <- list(ID = c("a", "b", "c", "d", "e"), size = c(1, 2, 3, 4, 5), observed = c(FALSE, TRUE, FALSE, FALSE, FALSE))

l[[1]]

[1] "a" "b" "c" "d" "e"

Código

l[[3]]

[1] FALSE  TRUE FALSE FALSE FALSE

Los elementos dentro de las listas también pueden ser subconjuntos en la misma cadena de código:

Código

l[[1]][1:2]

[1] "a" "b"

Código

l[[3]][2]

[1] TRUE

4.8 Explorar objectos

Código

str(df)

'data.frame':   3 obs. of  3 variables:
 $ family : chr  "Psittacidae" "Trochilidae" "Psittacidae"
 $ genus  : chr  "Amazona" "Phaethornis" "Ara"
 $ species: chr  "aestiva" "philippii" "ararauna"

Código

names(df)

[1] "family"  "genus"   "species"

Código

dim(df)

[1] 3 3

Código

nrow(df)

[1] 3

Código

ncol(df)

[1] 3

Código

head(df)

family	genus	species
Psittacidae	Amazona	aestiva
Trochilidae	Phaethornis	philippii
Psittacidae	Ara	ararauna

Código

tail(df)

family	genus	species
Psittacidae	Amazona	aestiva
Trochilidae	Phaethornis	philippii
Psittacidae	Ara	ararauna

Código

table(df$genus)


    Amazona         Ara Phaethornis 
          1           1           1

Código

typeof(df)

[1] "list"

Código

View(df)

4.9 Ejercicio 1

Utilice los datos de ejemplo iris para crear un subconjunto de datos con sólo las observaciones de la especie setosa
Ahora cree un subconjunto de datos que contenga las observaciones tanto de “setosa” como de “versicolor”
También con iris cree un subconjunto de datos con las observaciones para las que iris$Sepal.length es mayor que 6
¿Cuántas observaciones tienen una longitud de sépalo superior a 6?

4.10 Funciones

Todas las funciones se crean con la función function() y siguen la misma estructura:

* Modified from Grolemund 2014

R viene con muchas funciones que puedes usar para hacer tareas sofisticadas:

Código

# built in functions
bi <- builtins()

length(bi)

[1] 1370

Código

sample(bi, 10)

 [1] "toString"          "str2expression"    "sys.frames"       
 [4] "&.hexmode"         "xtfrm.data.frame"  "row.names.default"
 [7] "as.data.frame"     "[[<-.data.frame"   "besselY"          
[10] "Summary.ordered"

Los operadores son funciones:

Código

1 + 1

[1] 2

Código

'+'(1, 1)

[1] 2

Código

2 * 3

[1] 6

Código

'*'(2, 3)

[1] 6

4.10.1 Operadores mas utilizados

Operadores aritméticos:

Operador	Descrición
\+	suma
\-	resta
\*	multiplicación
/	división
^ or **	exponente

Código

1 - 2

[1] -1

Código

1 + 2

[1] 3

Código

2 ^ 2

[1] 4

Código

2 ** 2

[1] 4

Código

2:3 %in% 2:4

[1] TRUE TRUE

Operadores lógicos:

Operador	Descrición
	menor que
	menor o igual que
>	mayo que
>=	mayor o igual que
==	exactamente igual que
!=	diferente que
!x	No es x
x \| y	x O y
x & y	x Y y
x %in% y	correspondencia

Código

1 < 2

[1] TRUE

Código

1 > 2

[1] FALSE

Código

1 <= 2

[1] TRUE

Código

1 == 2

[1] FALSE

Código

1 != 2

[1] TRUE

Código

1 > 2

[1] FALSE

Código

5 %in% 1:6

[1] TRUE

Código

5 %in% 1:4

[1] FALSE

La mayoría de las funciones están vectorizadas:

Código

1:6 * 1:6

* Modified from Grolemund & Wickham 2017

[1]  1  4  9 16 25 36

Código

1:6 - 1:6

[1] 0 0 0 0 0 0

R recicla vectores de longitud desigual:

Código

1:6 * 1:5

* Modified from Grolemund & Wickham 2017

Warning in 1:6 * 1:5: longitud de objeto mayor no es múltiplo de la longitud de
uno menor

[1]  1  4  9 16 25  6

Código

1:6 + 1:5

Warning in 1:6 + 1:5: longitud de objeto mayor no es múltiplo de la longitud de
uno menor

[1]  2  4  6  8 10  7

5 El estilo importa

Based on google’s R Style Guide

5.1 Nombres de archivos

Los nombres de los archivos deben terminar en .R y, por supuesto, ser auto-explicatorios:

Bien: graficar_probabilidad_posterior.R
Mal: graf.R

5.2 Nombres de objetos

Variables y funciones:

Minúsculas
Utilice un guión bajo
En general, nombres para las variables y verbos para las funciones
Procure que los nombres sean concisos y significativos (no siempre es fácil)
Avoid using names of existing functions of variables

Código

  - Bien: dia_uno: dia_1, peso_promedio(),
  
  - Mal: diauno, dia1, primer.dia_delmes, mean <- function(x) sum(x), c <- 10

5.3 Syntaxis

5.3.1 Espacios

Utilice espacios alrededor de los operadores y para los argumentos dentro de una función
Ponga siempre un espacio después de una coma, y nunca antes (como en el inglés normal)
Coloque un espacio antes del paréntesis izquierdo, excepto en una llamada a una función

Código

  - Bien: 
          a <- rnorm(n = 10, sd = 10, mean = 1)
          tab.prior <- table(df[df$dias < 0, "campaign.id"])
          total <- sum(x[, 1])
          total <- sum(x[1, ])
          if (debug)
          mean(1:10)
          
  - Mal: 
         a<-rnorm(n=10,sd=10,mean=1)
         tab.prior <- table(df[df$days.from.opt<0, "campaign.id"])  # necesita espacio alrededor de '<'
         tab.prior <- table(df[df$days.from.opt < 0,"campaign.id"])  # Necesita espacio despues de la coma
         tab.prior<- table(df[df$days.from.opt < 0, "campaign.id"])  # Necesita espacio antes de <-
         tab.prior<-table(df[df$days.from.opt < 0, "campaign.id"])  # Necesita espacio alrededor de <-
         total <- sum(x[,1])  # Necesita espacio antes de la coma  
         if(debug) # Necesita espacio antes del parentesis
         mean (1:10) # Espacio extra luego del nombre de la funcion

5.3.1.1 Corchetes

La llave de apertura nunca debe ir en su propia línea
La llave de cierre debe ir siempre en su propia línea
Puede omitir las llaves cuando un bloque consiste en una sola declaración

Código

  - Bien:
              if (is.null(ylim)) {
              ylim <- c(0, 0.06)
            }
                      
            if (is.null(ylim))
              ylim <- c(0, 0.06)
          
  - Mal:
            
         if (is.null(ylim)) ylim <- c(0, 0.06)
                    
         if (is.null(ylim)) {ylim <- c(0, 0.06)} 

         if (is.null(ylim)) {
           ylim <- c(0, 0.06)
           }

5.3.1.2 Crear objetos

Use <-, no =

Código

  - GOOD:
         x <- 5 
          
  - BAD:
         x = 5

5.3.1.3 Sugerencias para añadir comentarios

Comente su código
Las líneas enteras comentadas deben comenzar con # y un espacio
Los comentarios cortos pueden colocarse después del código precedido por dos espacios, #, y luego un espacio

Código

# Create histogram of frequency of campaigns by pct budget spent.
hist(df$pct.spent,
     breaks = "scott",  # method for choosing number of buckets
     main   = "Histograma: individuos por unidad de tiempo",
     xlab   = "Número de individuos",
     ylab   = "Frecuencia")

5.3.1.4 Disposición general y ordenación (estilo de google)

Comentario de la declaración de derechos de autor (?)
Comentario del autor
Comentario de la descripción del archivo, incluyendo el propósito del programa, las entradas y las salidas
declaraciones source() y library()
Definiciones de funciones
Sentencias ejecutadas, si procede (por ejemplo, print, plot)

6 Documentación de R

La mayoría de los recursos de R están muy bien documentados. Así que la primera fuente de ayuda a la que debe acudir cuando escriba código R es la propia documentación de R. Todos los paquetes están documentados de la misma manera estándar. Familiarizarse con el formato puede simplificar mucho las cosas.

6.1 Package documentation

Reference manuals

Los manuales de referencia son colecciones de la documentación de todas las funciones de un paquete (sólo 1 por paquete):

6.2 Documentación de las funciones

Todas las funciones (por defecto o de paquetes cargados) deben tener una documentación que siga un formato estándar:

Código

?mean

help("mean")

Esta documentación también puede mostrarse en Rstudio pulsando F1 cuando el cursor está en el nombre de la función

Si no recuerda el nombre de la función pruebe con apropos():

Código

apropos("mean")

 [1] ".colMeans"     ".rowMeans"     "colMeans"      "kmeans"       
 [5] "mean"          "mean.Date"     "mean.default"  "mean.difftime"
 [9] "mean.POSIXct"  "mean.POSIXlt"  "rowMeans"      "weighted.mean"

6.3 Viñetas (vignettes)

Las viñetas son documentos ilustrativos o casos de estudio que detallan el uso de un paquete (opcional, pueden ser varios por paquete).

Las viñetas se pueden llamar directamente desde R:

Código

vgn <- browseVignettes()

Código

vignette()

También deberían aparecer en la página del paquete en CRAN.

6.4 Demonstraciones

Los paquetes también pueden incluir demostraciones de código extendidas (“demos”). Para listar las demos de un paquete ejecute demo("nombre del paquete"):

Código

demo(package="stats")

# call demo directly
demo("nlm")

6.5 Ejercicio 2

¿Qué hace la función cut()?
¿Para qué se utiliza el argumento breaks en cut()?
Ejecuta las 4 primeras líneas de código de los ejemplos proporcionados en la documentación de cut().
¿Cuántas viñetas tiene el paquete warbleR?

6.6 Referencias

Advanced R, H Wickham
Google’s R Style Guide
Hands-On Programming with R (Grolemund, 2014)

Información de la sesión

R version 4.1.2 (2021-11-01)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 22.04.2 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.10.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.10.0

locale:
 [1] LC_CTYPE=es_CR.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=es_CR.UTF-8        LC_COLLATE=es_CR.UTF-8    
 [5] LC_MONETARY=es_CR.UTF-8    LC_MESSAGES=es_CR.UTF-8   
 [7] LC_PAPER=es_CR.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=es_CR.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
 [1] rstudioapi_0.13   knitr_1.45        xml2_1.3.3        magrittr_2.0.3   
 [5] rvest_1.0.3       munsell_0.5.0     viridisLite_0.4.2 colorspace_2.1-0 
 [9] R6_2.5.1          rlang_1.1.2       fastmap_1.1.1     stringr_1.5.0    
[13] httr_1.4.2        tools_4.1.2       webshot_0.5.5     xfun_0.41        
[17] cli_3.6.1         htmltools_0.5.7   systemfonts_1.0.4 yaml_2.3.7       
[21] digest_0.6.33     lifecycle_1.0.4   kableExtra_1.3.4  vctrs_0.6.4      
[25] htmlwidgets_1.5.4 glue_1.6.2        evaluate_0.23     rmarkdown_2.25   
[29] stringi_1.7.12    compiler_4.1.2    scales_1.2.1      jsonlite_1.8.7   
[33] svglite_2.1.0