# `List` y `Dict` Comprehensions

Es difícil explicar en abstracto que son las `List` y `Dict` *comprehensions*. Por ahora sólo vamos a decir que son una manera muy potente y rápida de generar `List` y `Dict` a partir de otros `List` y `Dict`. Veamos un par de ejemplos.

## `List` *Comprehensions*

Construir una `List` a partir de otra `List` u otra estrucutura de datos.

### Ejemplo: Transformar los Elementos de una `List`

Supongamos que tenemos una lista de RUTs. Como es típico, los RUTs vienen con formatos inconsistentes, supongamos que pueden venir con o sin separador de miles y con o sin guión antes del dígito verificador. Por ejemplo:

- 12.345.678-9
- 21543879-9
- 214537689

Obviamente, antes de utilizar esta lista, queremos homologar los formatos. Para homologar un RUT al formato sin separador de miles y con guión, escribimos la siguiente función:

In [2]:
def estandariza_rut(rut):
    """
    Estandariza un RUT al siguiente formato XXXXXXXX-DV.
    
    Parameters
    ----------
    
    rut: str o int
        Representa un RUT, puede venir con o sin separador de miles, con o sin guión antes del 
        dígito verificador y podría ser un `int` o un `str`.
        
    Returns
    -------
    
    El RUT en el formato estandarizado como un `str`.
    """
    # Antes de comenzar la transformación nos aseguramos que el parámetro rut sea un str.
    temp = str(rut)
    
    # Se eliminan eventuales separadores de miles.
    temp = temp.replace(".", "")
    temp = temp.replace(",", "")
    
    # Se elimina eventual dígito verificador.
    temp = temp.replace("-", "")
    
    # Se agrega el dígito verificador y se retorna.
    return f'{temp[:-1]}-{temp[-1]}' # slicing

Probemos la función:

In [3]:
ruts = ['12.345.678-9', '21543879-9', 214537689]
for rut in ruts:
    print(estandariza_rut(rut))

12345678-9
21543879-9
21453768-9


In [4]:
ruts_ok = []
for rut in ruts:
    ruts_ok.append(estandariza_rut(rut))
ruts_ok

['12345678-9', '21543879-9', '21453768-9']

Aplicamos ahora un `List` comprehension para transformar la `List` `ruts` en una `List` con RUTs estandarizados.

In [5]:
ruts_ok = [estandariza_rut(rut) for rut in ruts]
ruts_ok

['12345678-9', '21543879-9', '21453768-9']

La mejor manera de pensar y entender esta sintaxis es recordando la notación matemática (del colegio nada complicado) para denotar o definir un conjunto. En este caso el conjunto $Y$ formado por todos los valores transformados por la función $f$ de los elementos del conjunto $X$.

$$Y=\{ f(x):x\in X \}$$

### Ejercicio: Capitalizar una Lista de Nombres

Considerar esta `List` de nombres: `nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']`.

Transformar `nombres` en: `['María', 'Rosa', 'José', 'Horacio', 'Anacleta']`.

**Tip:** ir a Google y buscar *capitalize string in python*.

Solución:

In [6]:
# Usando List comprehension. Más elegante y más rápido.
nombres = ['maría', 'Rosa', 'josé', 'horacio', 'Anacleta']
resultado = [x.capitalize() for x in nombres]
print(resultado)

# Forma fea
resultado1 = []
for x in nombres:
    resultado1.append(x.capitalize())
print(resultado1)

['María', 'Rosa', 'José', 'Horacio', 'Anacleta']
['María', 'Rosa', 'José', 'Horacio', 'Anacleta']


### Ejemplo: Filtrar los Elementos de una `List`

Tenemos ahora una `List` de `Tuple` donde cada `Tuple` tiene el nombre de un producto comestible y un `bool`que indica si el producto tiene o no sellos (si es `True` entonces tiene sellos).

In [7]:
productos = [
    ('Super8', True),
    ('Apio', False),
    ('Zucaritas', True),
    ('Té verde', False)
]

Vamos a filtrar los productos sin sellos y almacenarlos en una nueva `List`.

In [8]:
productos_con_sellos = [p for p in productos if p[1]]

La expresión `if p[1]` es lo mismo que escribir `if p[1] == True`, pero es más elegante y conciso. Veamos qué obtuvimos.

In [9]:
productos_con_sellos

[('Super8', True), ('Zucaritas', True)]

También usando la notación matemática para conjuntos, esta sintaxis se puede pensar como:

$$Y=\{(x_0, x_1): (x_0, x_1) \in X \land x_1 = True \}$$

Aquí, $\land$ es el símbolo matemático para la condición lógica `and`.

#### Ejercicio: Filtrar Números

Considerando la siguiente `List` `rand_nums` de números enteros generados aleatoriamente usando una `List` comprehension:

- filtrar todos los elementos superiores a 50
- generar la `List` con las raíces cuadradas de los elementos de `rand_nums`.

In [10]:
import random as rnd

# En esta librería está la función sqrt para calcular raíces cuadradas
import math 

rand_nums = [rnd.randint(1, 101) for i in range(100)] # Es primera vez que usamos range

Solución:

In [11]:
gt_50 = [number for number in rand_nums if number > 50]
sqr = [math.sqrt(number) for number in rand_nums]

print(rand_nums)
print()
print(gt_50)
print()
print(sqr)

[85, 17, 80, 53, 85, 26, 40, 27, 8, 22, 41, 45, 87, 52, 45, 55, 9, 24, 2, 5, 67, 3, 83, 75, 23, 64, 38, 69, 68, 54, 27, 47, 81, 19, 4, 97, 14, 52, 23, 58, 24, 90, 69, 56, 37, 11, 59, 37, 98, 7, 45, 42, 17, 18, 4, 3, 71, 77, 69, 57, 43, 57, 22, 55, 45, 97, 62, 84, 34, 16, 95, 85, 61, 47, 36, 98, 101, 53, 27, 18, 83, 81, 60, 7, 89, 69, 41, 69, 40, 71, 78, 4, 62, 31, 56, 55, 4, 44, 39, 12]

[85, 80, 53, 85, 87, 52, 55, 67, 83, 75, 64, 69, 68, 54, 81, 97, 52, 58, 90, 69, 56, 59, 98, 71, 77, 69, 57, 57, 55, 97, 62, 84, 95, 85, 61, 98, 101, 53, 83, 81, 60, 89, 69, 69, 71, 78, 62, 56, 55]

[9.219544457292887, 4.123105625617661, 8.94427190999916, 7.280109889280518, 9.219544457292887, 5.0990195135927845, 6.324555320336759, 5.196152422706632, 2.8284271247461903, 4.69041575982343, 6.4031242374328485, 6.708203932499369, 9.327379053088816, 7.211102550927978, 6.708203932499369, 7.416198487095663, 3.0, 4.898979485566356, 1.4142135623730951, 2.23606797749979, 8.18535277187245, 1.7320508075688772, 9.11

##### Ejemplos de `range`

Números tales que: $0 \leq n \lt 5$

In [12]:
for i in range(5):
    print(i)

0
1
2
3
4


Números tales que: $-1\leq n \lt 20$ contando de 2 en 2.

In [13]:
for i in range(-1, 20, 2):
    print(i)

-1
1
3
5
7
9
11
13
15
17
19


Documentación de `range`

In [14]:
print(range.__doc__) # dunder doc

range(stop) -> range object
range(start, stop[, step]) -> range object

Return an object that produces a sequence of integers from start (inclusive)
to stop (exclusive) by step.  range(i, j) produces i, i+1, i+2, ..., j-1.
start defaults to 0, and stop is omitted!  range(4) produces 0, 1, 2, 3.
These are exactly the valid indices for a list of 4 elements.
When step is given, it specifies the increment (or decrement).


In [15]:
datos = ['a', 'b', 'c', 'd', 'e']
for i in range(len(datos)):
    print(datos[i])

a
b
c
d
e


Aunque la manera *pythonica* de hacer lo anterior es:

In [24]:
for d in datos:
    print(d)

a
b
c
d
e


## `Dict` *Comprehensions*

Construir un `Dict` a partir de otro `Dict`, una `List` u otra estrucutura de datos.

### Reorganizar una `List`

Consideremos la siguiente `List` de `Tuples`. Cada `Tuple` contiene el nombre, edad (años), peso (kilos) y estatura (cm.) de un paciente. Data con esta estructura es la que usualmente se obtiene de la consulta a una base de datos. Sin embargo, si queremos rápidamente acceder a las cifras de un paciente en particular, tener la data almacenada de esta forma, no es lo más conveniente. Si vamos a buscar por nombre, lo más conveniente es usar un `Dict` cuyos `keys` sea el nombre del paciente y cuyos `values` sea la data del paciente.

In [16]:
data = [
    ('Pedro', 25, 70, 170),
    ('Juan', 43, 67, 165),
    ('Diego', 18, 90, 180),
    ('María', 50, 55, 160),
]

In [17]:
data[0][1:]

(25, 70, 170)

In [18]:
data_dict = {d[0]: d[1:] for d in data}
data_dict

{'Pedro': (25, 70, 170),
 'Juan': (43, 67, 165),
 'Diego': (18, 90, 180),
 'María': (50, 55, 160)}

Ahora, si queremos acceder a los datos de María sólo tenemos que:

In [19]:
data_dict['María']

(50, 55, 160)

### Asignar Nombres a los Datos Numéricos

La estructura anterior es sin duda una mejora. Sin embargo, podríamos confundirnos entre la edad y el peso de un paciente. Por ejemplo, María tiene **50** años y pesa **55** kilos. Para que no exista esa confusión, también la data se almacenará en un `Dict`.

In [20]:
data_dict_2 = {d[0]: {'edad': d[1], 'peso': d[2], 'estatura': d[3]} for d in data}

In [21]:
data_dict_2

{'Pedro': {'edad': 25, 'peso': 70, 'estatura': 170},
 'Juan': {'edad': 43, 'peso': 67, 'estatura': 165},
 'Diego': {'edad': 18, 'peso': 90, 'estatura': 180},
 'María': {'edad': 50, 'peso': 55, 'estatura': 160}}

Ahora, si queremos la edad de María hacemos:

In [22]:
data_dict_2['María']['edad']

50

Y su peso ...

In [23]:
data_dict_2['María']['peso']

55