Il existe plusieurs types d’outil utilisés pour les analyses de données. Ces outils répondent à plusieurs besoins :
- Extraire les données
- Transformer les données
- Visualiser les données
- Analyser les données
- Partager les analyses de données
- Industrialiser des modèles d’analyse de données.
J’ai choisi de vous présenter des outils accessibles gratuitement. Mon objectif étant de permettre au plus grand nombre de s’exercer. Cette liste sera mise à jour au fur et à mesure des articles.
Vous constaterez que de nombreux outils sont proposés par Google. La firme de Mountain View a en effet une forte volonté de démocratiser l’analyse de données. Ils mettent à disposition du grand public les outils qu’ils propose dans le cas de Google Suite. Si votre entreprise utilise cette Digital Workplace, vous pourrez donc réutiliser directement ces outils.
C’est un mouvement stratégique intéressant de la part de Google. En effet, ils proposent leurs outils comme une norme accessible à tous en vue de devenir incontournable.
Python
Python est un langage de programmation sous Licence Libre publié pour la première fois en 1991. (Je n’étais même pas né !). Ce langage est actuellement le plus populaire dans le monde selon l’index Tiobe. Il a connu une croissance importante depuis les années 2014 et l’avènement du machine learning.
J’ai décidé d’apprendre Python en constatant les limites imposées par VBA. Vous savez, ce langage qui permet de faire des macros dans Excel. A l’époque, je cherchais un langage polyvalent et simple. Python correspondait parfaitement à cela !
Par ailleurs, Python dispose d’une importante communauté. Ceci explique le développement de multitude de bibliothèques qui étendent les possibilités offerte par ce langage. Cette communauté est aussi responsable de nombreux tutoriels et espaces d’entre aide. Ce langage offre des possibilités presque illimitées de développement d’application. Par exemple, mon projet le plus avancé consistait à requêter des bases de données de gestion administrative et de générer des éditiques (attestation employeur, augmentations…).
Pour se lancer sur Python, vous avez deux possibilités :
Soit installer Python sur votre poste. Je vous recommande alors la distribution Anaconda qui contient l’essentiel pour l’analyse de donnée. Cliquez ici pour installer la distribution Anaconda de Python
Soit utiliser Google Colaboratory qui permet de rédiger et d’exécuter des Notebooks en ligne. C’est la solution la plus simple pour commencer. Cliquez ici pour vous connecter à Google Colaboratory (nécessite la création d’un compte Google pour exécuter les Notebook).
Google Data Studio
Une grande partie de l’analyse des données passe par la visualisation. Google Data Studio est un outil simple permettant de faire de la visualisation de données. Il est moins avancé que la plupart des outils sur le marché mais a le mérite d’être gratuit et propose les fonctionnalités de bases.
Il s’inscrit entièrement dans la digital workplace de Google. Ceci vous permet d’aller chercher des données depuis Google Sheet par exemple.
Cliquez ici pour vous connecter à Google Data Studio (nécessite la création d’un compte Google).
Google Sheet
Google Sheet est le tableur proposé par Google. L’objectif de ce site est de découvrir les pratiques modernes. Nous nous détacherons tant que possible des outils de tableurs pour privilégier Python et Data Studio. Néanmoins, ils restent pratiques pour l’exploration de la données et des analyses rapides. Il est de fait impossible de les exclure.
Cliquez ici pour vous connecter à Google Sheet (nécessite la création d’un compte Google).