Dans cet article, nous allons (re)découvrir les principes de base permettant de définir et comprendre les données que vous manipulez au quotidien.
C’est l’heure des définitions !
Sommaire
Donnée VS information
Il est important de faire la distinction entre donnée et information.
Définition : donnée
Une donnée est le résultat d’une mesure, d’une observation, d’un fait.
Par exemple « 25 » est une donnée. On notera qu’une donnée en elle seule n’est pas exploitable à des fins de gestion.
Définition : information
Une information est une donnée à laquelle un sens et une interprétation ont été donnés.
S’il s’agit de 25 jours de congés payés, nous parlons du nombre annuel de congés payés. S’il s’agit de 25 jours de maladie il s’agit d’une absence pouvant être problématique. Cette dernière demandera éventuellement une action du service RH.
Les différents types de données
Il existe différents types de données. Être capable de les distinguer permet d’identifier les analyses que chaque type permet de réaliser.
Définition : données structurées
Les données structurées disposent d’un format prédéfini et pouvant être stockées dans des bases de données. Elles demandent en général peut de transformation afin d’être analysées.
Une extraction d’absence réalisée dans un outil de Gestion des Temps et Absences (GTA) contient des données structurées. On retrouvera des lignes et colonnes de telle sorte :
Matricule | NOM Prénom | Date | Motif |
1234 | MOUSE Mickey | 12/10/2021 | Congé Payé |
Exemple d’extraction d’absence issue d’un outil de GTA.
Définition : données non structurées
Les données non structurées ne disposent pas de format prédéfini et ne peuvent pas être stockées dans des bases de données. Elles sont difficiles à exploiter et demandent d’importantes transformations afin d’être analysées. Ce sont aujourd’hui les plus abondantes sur le web.
Les CV, les commentaires d’évaluations, les vidéos de formation sont des données non structurées. Il est difficile d’en tirer de l’information en l’état. Néanmoins, l’état actuel de l’intelligence artificielle permet d’exploiter ces données. Nous y reviendrons.
Concepts statistiques
Faire des « People Analytics », c’est faire des statistiques avec des données issues de la Gestion des Ressources Humaines. Je vous propose ici de reprendre les concepts de bases des statistiques.
Définition : population et échantillon
La population est l’ensemble sur lequel on réalise des observations statistiques. Il peut arriver que la population soit trop grande pour permettre des analyses statistiques. Dans ce cas, nous utilisons une part de la population que nous appelons échantillon.
Les statistiques permettent d’étendre à la population les conclusions issues des échantillons. Pour se faire, il existe des grands principes d’échantillonnage. Nous accorderons un article à ce sujet.
Définition : individu
Un individu est l’unité indivisible de la population. Il peut s’agir de collaborateurs, de formations, de postes… Il s’agit des lignes de nos extractions.
Les variables
Les caractéristiques des individus sont appelées variables. Il s’agit des colonnes de nos extractions.
Il existe 4 grands types de variables.
Prenons l’exemple d’une extraction de Gestion Administrative afin d’illustrer les 4 grands types de variable.
Matricule | Classification | Date d’entrée | Salaire de base |
---|---|---|---|
B1234 | N2 | 01/08/2007 | 3 000€ |
A1234 | N1 | 01/09/2018 | 2 000€ |
Définition : variables qualitatives
Les variables qualitatives, aussi appelées catégorielles, sont toutes les données non quantitatives. Il n’est pas possible de réaliser des opérations mathématiques dessus.
Il existe deux types de variables qualitatives.
Les variables nominales sont les identifiants de l’opération. Dans notre exemple, le matricule est une variable nominale.
Les variables ordinales sont les données pouvant présenter un ordre. La classification est une variable ordinale puisqu’elle représente une progression définie par les conventions collectives.
Définition : variables quantitatives
Les variables quantitatives sont les données prenant des valeurs numériques. Il est possible d’y appliquer des opérations mathématiques.
Il existe également deux types de variables quantitatives.
Les variables discrètes peuvent prendre un nombre fini de valeur. Ici, la date d’entrée, stockée sous forme de date, ne peut représenter que des jours de l’année. On peut les représenter par un histogramme car il n’y a pas de continuité.
Au contraire, les variables continues peuvent prendre un très grand nombre de valeur. Ici, le salaire de base peut comporter des centimes. Il existe donc 100 000 valeurs possibles entre les deux salaires de nos individus. On peut les représenter par des courbes car il existe une continuité.
Vous maitrisez maintenant les concepts de base des données et statistiques, félicitations !
Vous pouvez conserver l’image ci-dessous comme récapitulatif. C’est cadeau !