Big data
Introduction
Grâce à la numérisation quasi systématique des données, des échanges et des interactions il existe des sources d’informations immenses qui ne demandent qu’a être exploitées.
Que l’on parle de Panama papers, Offshore leaks, des données récoltées par les GAFAM, les données des clients d’une entreprise ou des données publiées par le gouvernement sur data.gouv.fr, il y a une grande demande de personnes capables d’analyser des ensembles de données de plusieurs Go ou To. On appelle le Big Data tout ce qui tourne autour de ces immenses ensembles de données.
Les données les plus simples sont généralement sous forme de tableau. Dans ce premier TP nous allons découvrir comment exploiter simplement ces données avec LibreOffice Calc.
Premier fichier
Pour commencer, nous allons créer un fichier simple pour découvrir le format CSV et LibreOffice Calc.
1) Avec un éditeur de texte, créez un fichier data.csv et remplissez-le avec le contenu suivant :
Nom,Prénom,Date de naissance
Doe,John,01/01/1970
Roe,Richard,26/11/2003
Dupond,Martin,31/12/1999
Doe,Jane,01/01/1970
Le format CSV (Comma Separated Values) signifie littéralement que les valeurs sont séparées par des virgules. Il existe une variante utilisée en France avec des points virgules pour éviter la confusion avec la virgule des nombres décimaux.
Les fichiers CSV représentent des tableaux. En général, la première ligne explique le contenu de chaque colonne (« Nom », « Prénom » et « Date de naissance » ici). On appelle ces éléments des descripteurs. Chaque ligne est ensuite une nouvelle entrée avec différentes valeurs.
Nous allons maintenant importer ce fichier dans LibreOffice Calc pour pouvoir l’exploiter plus simplement.
2) Cliquer sur votre fichier pour l’ouvrir avec LibreOffice Calc. Une fenêtre comme celle-ci doit s’ouvrir :
Vous avez un aperçu qui permet de voir si l’importation va bien se passer. Les options principales sont les suivantes :
- jeu de caractères : en général l’UTF-8 sera choisi. Si vous voyez des caractères étranges dans l’aperçu il faudra peut-être changer cette option ;
- à partir de la ligne : permet d’exclure plusieurs ligne en début de fichier ;
- option de séparateur : permet de choisir le séparateur. C’est ici qu’il faudra choisir éventuellement de point virgule ;
- détecter les nombres spéciaux : permet de détecter par exemple des nombres écrit avec des puissances de dix.
3) Importez correctement votre fichier. Vous devez avoir un tableau comme celui-ci :
La plupart des données disponibles sur internet utilisent se format car il est simple et universel. Nous allons le voir avec un exemple concret.
Data.gouv.fr
C’est un site gouvernemental qui publie des données venant de l’état ou d’autres utilisateurs.
4) Allez sur le site https://data.gouv.fr et trouvez dans les réutilisations quelques exemples d’utilisation de ces données.
5) Sur ce site, trouvez le jeu de données « Communes de France – Base des codes postaux » fourni par Mohamed Badaoui. Téléchargez alors le fichier communes-departements-regions.csv et importez-le dans OpenOffice Calc.
6) Quel est le nombre de communes en France d’après ce fichier ?
7) Quelles sont les coordonnées GPS de Marcq-en-Barœul ?
8) Téléchargez le fichier concernant l'impôt sur la fortune immobilière par collectivité territoriale dans les communes de plus de 20000 habitants ayant plus de 50 redevables . Importez-le dans OpenOffice Calc.
Il est possible de faire des calculs simples et des tris avec OpenOffice Calc. Les calculs simples se font en cliquant sur « moyenne » en bas de la fenêtre et en choisissant le calcul que l’on veut pour la sélection. Pour faire un tri il faut sélectionner l'ensemble des colonnes et aller dans « Données » puis cliquer sur « Trier… » puis choisir avec quelle colonne nous voulons faire le tri.
9) Avec le fichier sur l’ISF déterminez la commune avec le patrimoine moyen le plus élévé.
10) Toujours avec ce fichier, déterminez la commune avec le plus de contribuables soumis à l’ISF.
11) À votre avis, pourquoi les données sont limitées aux communes de plus de 20000 habitants ayant plus de 50 redevables ?
12) Parcourez le site data.gouv.fr à la recherche d’informations qui pourraient vous intéresser.