## Dictionnaires


### Définition


Un dictionnaire  est une collection contenant des VALEURS (=VALUES) qui sont indicées par des CLEFS (KEYS) uniques.

* Les clefs peuvent être des chaines de caractères, des entiers, des flottants
* Les valeurs peuvent être n'importe quoi.







In [1]:
dico = {}

dico['un entier'] = 3
dico['une liste'] = [3,7,4]

dico[5]="cinq"
dico[50]="cinquante"

dico

Cependant les clés ne peuvent pas être n'importe quoi. Elles doivent être 'hashable'

In [2]:
#un tuple de 'primitif' est hashable
dico = {}

dico[(3,4)]=34
dico[(3,"coucou")]=43

dico

In [3]:
#mais pas une liste
try:
    dico[[1,2]]=12
except Exception as e:
    print(e)

### Avantage


Les dictionnaires sont très efficaces car le temps d'accès aux valeurs (via une clef) ne dépend pas de la taille du dictionnaire. Imaginez que chaque clef est transformée, via un hachage, en adresse mémoire qui pointe vers une valeur.

Il y a des dictionnaires partout :

*  votre système d'exploitation crée des dictionnaires avec comme clef tous les mots présents dans tous les documents de votre ordinateur, et comme valeur l'adresse des documents en question.
*  les moteurs de recherche créent des dictionnaires pour indexer tous les mots clefs dans toutes les langues.
*  les bases de données créent des indexes pour accéder plus rapidement aux données.


Comparaison avec les listes: Les listes peuvent aussi être considérées comme un système de clé-valeur. Mais les clés sont forcément des entier consécutifs: beaucoup moins souple.

### Remplir un dico

In [4]:
%reset -f

In [5]:
""" création d'un dico par la notation 'JSON' (utilisée par de nombreux langages)"""
dictionnaire = {'un entier': 3, 'un groupe': 'abba', 'une liste':[1, 2, 3, 4, 5]}
dictionnaire

In [6]:
"""création d'un dico élément par élément """
dico = {} #dictionnaire vide
# autre méthode:
# dico=dict()
dico['un entier'] = 3
dico[5.3] = "coucou"
dico['un groupe'] = 'abba'
dico['un dico dans un dico'] = {3:"trois","cinq":5}

dico

### Accéder aux éléments

Il y a deux façons d'accéder aux valeurs:

In [7]:
dico={'a':1,'b':2}
print(dico['a'])  # quand on est sûr que la clef est présente.
print(dico.get('b'))  # quand on n'est pas sûr. Cela renvoie None quand la clef n'est pas présente
print(dico.get('c'))

***A vous:*** Dans le programme précédent, que donnerait

    dico['c']

(sachant que 'c' n'est pas une clé)

Chaque clef dans un dictionnaire est unique.
Les dictionnaires peuvent donc être utilisés pour représenter des listes sans répétition:

In [8]:
uneListe = [1, 2, 1, 4, 1, 4, 1, 1, 1, 1]

laListeSansRepetition = {}

for i in uneListe:
    laListeSansRepetition[i] = True
laListeSansRepetition

In [9]:
print("0 est dans notre ensemble ?:", laListeSansRepetition.get(0) is not None)
print("1 est dans notre ensemble ?:", laListeSansRepetition.get(1) is not None)

Les dictionnaires sont souvent utilisés pour compter des occurences.

In [10]:
unePhrase = "bonjour toi bonjour toi comment va toi va toi?"
lesMots = unePhrase.split(sep=" ")
lesMots

In [11]:
dico = {}
for mot in lesMots:
    if dico.get(mot) is None:
        dico[mot] = 1
    else:
        dico[mot] += 1

dico

In [12]:
"""une astuce pour un code plus concis"""
dico2 = {}
for mot in lesMots:
    """dico.get(key,0) renvoit 0 (au lieu de None) quand la clef n'est pas présente"""
    dico2[mot]=dico2.get(mot,0)+1
dico2

In [13]:
"""une astuce pour un code encore plus concis"""
from collections import defaultdict
dico3 = defaultdict(lambda: 0)

for mot in lesMots:
    """dico.get(key,0) renvoit 0 (au lieu de None) quand la clef n'est pas présente"""
    dico3[mot]+=1

dico3

`defaultdict` est un dictionnaire avec création automatique de valeur: lorsqu'on l'appelle avec une clé non présente, il fait appelle à la fonction du constructeur, pour initialiser la valeur associée à la clé.

In [14]:
dico4 = defaultdict(list) #la fonction `list` crée une liste vide

for mot in lesMots:
    """dico.get(key,0) renvoit 0 (au lieu de None) quand la clef n'est pas présente"""
    dico4[mot].append(mot)

dico4

### Boucle sur les éléments

In [15]:
dico={"un":1,"deux":2,"trois":3}
for k,v in dico.items():
    print(f'key:{k}, value:{v}')

Attention, les méthode `.items()`, `.values()`, `.keys()` renvoie des itérateurs. Donc bug potentiel:

In [16]:
try:
    dico.values()[2]
except Exception as e:
    print(e)

Ne pas hésiter à utiliser la fonction `list`

In [17]:
print(list(dico.keys()))
print(list(dico.values()))
print(list(dico.items()))

Et

In [18]:
#si on ne met rien, on boucle sur les clés.
print(list(dico))

Dans le python moderne, les 3 méthodes qui renvoient les clés/valeurs, les classent dans l'ordre d'insersion des clés (ce qui est naturel). Attention, ce n'est pas le cas dans tous les langages informatiques.

In [19]:
di={}
di["2"]=20
di["1"]=1
di["0"]=0
#modification d'une valeur
di["2"]=2
di.items()

### Ensemble

Tout comme en mathématique, les ensembles ne mémorisent pas les doublons.    Cela peut être vu comme un dictionnaire, mais avec uniquement des "True" comme valeur.

In [20]:
ensemble={1, 2, 1, 4, 1, 4, 1, 1, 1, 1}
# c'est comme {1:True, 2:True, 1:True, 4:True, 1:True, 4:True, 1:True, 1:True, 1:True, 1:True}

print(ensemble)
ensemble.add(3)
ensemble.add(1)
print(ensemble)

Attention, pour créer un ensemble vide, il faut utiliser la syntaxe `set()` et pas `{}` qui crée un dictionnaire vide.

Attention, contrairement au dictionnaire, l'ordre d'insertion n'est pas mémorisé pour un `set`.

In [21]:
ensemble=set()
ensemble.add(4)
ensemble.add(2)
ensemble.add(12)
ensemble.add(1)
ensemble.add("a")
ensemble.add("c")
ensemble.add("b")


print(list(ensemble))#il affiche les élements dans un ordre indéterminé

### Inverser clé et valeur

Quand les valeurs sont hashable, on peut inverser clés et valeurs:

In [22]:
dico={'5':10,10:'20'}
dico

In [23]:

dicoInv={}
for key,val in dico.items():
    dicoInv[val]=key

dicoInv

In [24]:
"la même chose en une ligne"
dicoInv2={ val:key for key,val in dico.items() }
dicoInv2

### Application: trouvez des éléments communs

Supposons que l'on veuille créer une fonction qui calcule *rapidement* les éléments communs à deux listes. Par exemple avec comme entrée:
    
        liste1=[1,3,5,7]
        liste2=[8,6,5,3,2]
        
cette fonction renverra `[3,5]` ou `[5,3]`.  Mais prenons des listes plus longues pour que le temps d'excécution ne soit pas négligeable:


In [25]:
liste1=range(0,300000,33)
liste2=range(0,300000,17)

Naïvement, pour calculer cette intersection, on effectuerait une double boucle, mais c'est très lent:

In [26]:
%%time
inter=[]
for i in liste1:
    for j in liste2:
        if i==j: inter.append(j)
print(len(inter))

La bonne technique  est de transformer la première liste en dico/ensemble puis de boucler sur la seconde liste:

In [27]:
%%time
liste1_as_set=set(liste1)
inter=[]
for elem in liste2:
    if elem in liste1_as_set:
        inter.append(elem)

print(len(inter))

#### ♡


Expliquons pourquoi c'est plus rapide en donnant la complexité algorithmique. Notons $l1$ et $l2$ les longueurs des deux listes.
Le premier programme nécéssitez une double boucle, ce qui demande <font color="red"> □ □ □ </font> opérations.

Alors que le second programme demande detranformer la liste1 en semble, puis de faire une boucle sur la liste deux. Cela demande donc <font color="red"> □ □ □ </font> opérations.

Même si le mot 'opération' est très flou dans notre texte, cela permet de comprendre.




On peut aussi faire la même chose  en utilisant une méthode toute faite `intersection()`. C'est un peu plus rapide car on utilise une boucle implicite (le `for` n'apparaît pas).

In [28]:
%%time
"on transforme des listes en ensemble pour calculer leur intersection"
liste1_as_set=set(liste1)
inter=liste1_as_set.intersection(liste2)
len(inter)

On peut aussi transformer les deux listes en ensemble et faire leur intersection. Mais c'est inutile et un peu plus long.



Par contre, pour calculer la différence ensembliste, il faut deux ensembles.

In [29]:
"on peut aussi passer par des listes pour calculer la différence entre deux liste"
liste1=[1,2,3,4,5]
liste2=[4,5,6,7]
diff=set(liste1)-set(liste2)
diff

### Défi prog

On dispose d'une base de données décrivant des personnes, organisée selon la structure arboreste suivante:


    nom_de_famille --> prénom --> age

In [30]:
nom_prenom_age={"vigon":{"vincent":47,"joachim":11,"alix":7},"dupont":{"vincent":38,"albert":19},"durant":{"albert":28,"alix":70}}
nom_prenom_age

On aimerait regrouper les personnes par prénom. Et donc organiser notre base de donnée selon cette nouvelle structure arborescente:

    prénom --> nom_de_famille --> age

Sur l'exemple précédent cela donnerait:

    {'vincent': {'vigon': 47, 'dupont': 38},
    'joachim': {'vigon': 11},
    'alix': {'vigon': 7, 'durant': 70},
    'albert': {'dupont': 19, 'durant': 28}}

#### ♡♡♡

In [31]:
#une première solution en utilisant la méthode get(?,?)
def inverse_dico_with_get(nom_prenom_age):
    prenom_nom_age={}
    for nom,prenom_age in nom_prenom_age.items():
        for prenom,age in prenom_age.items():
            ...
    return prenom_nom_age

inverse_dico_with_get(nom_prenom_age)

    {'vincent': {'vigon': 47, 'dupont': 38},
    'joachim': {'vigon': 11},
    'alix': {'vigon': 7, 'durant': 70},
    'albert': {'dupont': 19, 'durant': 28}}

#### ♡♡♡

In [32]:
#une seconde solution en utilisant defaultdict
def inverse_dico_with_default_dict(nom_prenom_age):
    prenom_nom_age=defaultdict(dict)
    for nom,prenom_age in nom_prenom_age.items():
        for prenom,age in prenom_age.items():
            ...
    return prenom_nom_age

inverse_dico_with_default_dict(nom_prenom_age)

    defaultdict(dict,
                {'vincent': {'vigon': 47, 'dupont': 38},
                'joachim': {'vigon': 11},
                'alix': {'vigon': 7, 'durant': 70},
                'albert': {'dupont': 19, 'durant': 28}})