Logo de kxs.frCours d'informatique pour le lycée et la prépa

Big data

Introduction

Grâce à la numérisation quasi systématique des données, des échanges et des interactions il existe des sources d’informations immenses qui ne demandent qu’a être exploitées.

Que l’on parle de Panama papers, Offshore leaks, des données récoltées par les GAFAM, les données des clients d’une entreprise ou des données publiées par le gouvernement sur data.gouv.fr, il y a une grande demande de personnes capables d’analyser des ensembles de données de plusieurs Go ou To. On appelle le Big Data tout ce qui tourne autour de ces immenses ensembles de données.

Les données les plus simples sont généralement sous forme de tableau. Dans ce premier TP nous allons découvrir comment exploiter simplement ces données avec LibreOffice Calc.

Premier fichier

Pour commencer, nous allons créer un fichier simple pour découvrir le format CSV et LibreOffice Calc.

1) Avec un éditeur de texte, créez un fichier data.csv et remplissez-le avec le contenu suivant :

Nom,Prénom,Date de naissance
Doe,John,01/01/1970
Roe,Richard,26/11/2003
Dupond,Martin,31/12/1999
Doe,Jane,01/01/1970

Le format CSV (Comma Separated Values) signifie littéralement que les valeurs sont séparées par des virgules. Il existe une variante utilisée en France avec des points virgules pour éviter la confusion avec la virgule des nombres décimaux.

Les fichiers CSV représentent des tableaux. En général, la première ligne explique le contenu de chaque colonne (« Nom », « Prénom » et « Date de naissance » ici). On appelle ces éléments des descripteurs. Chaque ligne est ensuite une nouvelle entrée avec différentes valeurs.

Nous allons maintenant importer ce fichier dans LibreOffice Calc pour pouvoir l’exploiter plus simplement.

2) Cliquer sur votre fichier pour l’ouvrir avec LibreOffice Calc. Une fenêtre comme celle-ci doit s’ouvrir :

Fenêtre d'importation de Libreoffice Calc

Vous avez un aperçu qui permet de voir si l’importation va bien se passer. Les options principales sont les suivantes :

3) Importez correctement votre fichier. Vous devez avoir un tableau comme celui-ci :

Exemple de données dans Libreoffice Calc

La plupart des données disponibles sur internet utilisent se format car il est simple et universel. Nous allons le voir avec un exemple concret.

Data.gouv.fr

C’est un site gouvernemental qui publie des données venant de l’état ou d’autres utilisateurs.

4) Allez sur le site https://data.gouv.fr et trouvez dans les réutilisations quelques exemples d’utilisation de ces données.

5) Sur ce site, trouvez le jeu de données « Communes de France – Base des codes postaux » fourni par Mohamed Badaoui. Téléchargez alors le fichier communes-departements-regions.csv et importez-le dans OpenOffice Calc.

6) Quel est le nombre de communes en France d’après ce fichier ?

7) Quelles sont les coordonnées GPS de Marcq-en-Barœul ?

8) Chercher un fichier concernant l’impôt sur la fortune (ISF) dans les communes de plus de 20000 habitants. Importez-le dans OpenOffice Calc.

Il est possible de faire des calculs simples et des tris avec OpenOffice Calc. Les calculs simples se font en cliquant sur « moyenne » en bas de la fenêtre et en choisissant le calcul que l’on veut pour la sélection. Pour faire un tri il faut sélectionner la colonne qui nous intéresse et aller dans « Données » puis choisir le tri qui nous intéresse.

9) Avec le fichier sur l’ISF déterminez la commune avec le patrimoine moyen le plus élévé.

10) Toujours avec ce fichier, déterminez la commune avec le plus de contribuables soumis à l’ISF.

11) Parcourez le site data.gouv.fr à la recherche d’informations qui pourraient vous intéresser.