Dans cet article, nous allons (re)découvrir les principes de base permettant de définir et comprendre les données que vous manipulez au quotidien.

C’est l’heure des définitions !


Il est important de faire la distinction entre donnée et information.

Une donnée est le résultat d’une mesure, d’une observation, d’un fait.

Par exemple « 25 » est une donnée. On notera qu’une donnée en elle seule n’est pas exploitable à des fins de gestion.

Une information est une donnée à laquelle un sens et une interprétation ont été donnés.

S’il s’agit de 25 jours de congés payés, nous parlons du nombre annuel de congés payés. S’il s’agit de 25 jours de maladie il s’agit d’une absence pouvant être problématique. Cette dernière demandera éventuellement une action du service RH.

Il existe différents types de données. Être capable de les distinguer permet d’identifier les analyses que chaque type permet de réaliser.

Les données structurées disposent d’un format prédéfini et pouvant être stockées dans des bases de données. Elles demandent en général peut de transformation afin d’être analysées.

Une extraction d’absence réalisée dans un outil de Gestion des Temps et Absences (GTA) contient des données structurées. On retrouvera des lignes et colonnes de telle sorte :

MatriculeNOM PrénomDateMotif
1234MOUSE Mickey12/10/2021Congé Payé

Exemple d’extraction d’absence issue d’un outil de GTA.

Les données non structurées ne disposent pas de format prédéfini et ne peuvent pas être stockées dans des bases de données. Elles sont difficiles à exploiter et demandent d’importantes transformations afin d’être analysées. Ce sont aujourd’hui les plus abondantes sur le web.

Les CV, les commentaires d’évaluations, les vidéos de formation sont des données non structurées. Il est difficile d’en tirer de l’information en l’état. Néanmoins, l’état actuel de l’intelligence artificielle permet d’exploiter ces données. Nous y reviendrons.

Faire des « People Analytics », c’est faire des statistiques avec des données issues de la Gestion des Ressources Humaines. Je vous propose ici de reprendre les concepts de bases des statistiques.

La population est l’ensemble sur lequel on réalise des observations statistiques. Il peut arriver que la population soit trop grande pour permettre des analyses statistiques. Dans ce cas, nous utilisons une part de la population que nous appelons échantillon.

Les statistiques permettent d’étendre à la population les conclusions issues des échantillons. Pour se faire, il existe des grands principes d’échantillonnage. Nous accorderons un article à ce sujet.

Un individu est l’unité indivisible de la population. Il peut s’agir de collaborateurs, de formations, de postes… Il s’agit des lignes de nos extractions.

Les caractéristiques des individus sont appelées variables. Il s’agit des colonnes de nos extractions.

Il existe 4 grands types de variables.

Prenons l’exemple d’une extraction de Gestion Administrative afin d’illustrer les 4 grands types de variable.

MatriculeClassificationDate d’entréeSalaire de base
B1234N201/08/20073 000€
A1234N101/09/20182 000€
Exemple d’extraction issue d’un outil de Gestion Administrative

Les variables qualitatives, aussi appelées catégorielles, sont toutes les données non quantitatives. Il n’est pas possible de réaliser des opérations mathématiques dessus.

Il existe deux types de variables qualitatives.

Les variables nominales sont les identifiants de l’opération. Dans notre exemple, le matricule est une variable nominale.

Les variables ordinales sont les données pouvant présenter un ordre. La classification est une variable ordinale puisqu’elle représente une progression définie par les conventions collectives.

Les variables quantitatives sont les données prenant des valeurs numériques. Il est possible d’y appliquer des opérations mathématiques.

Il existe également deux types de variables quantitatives.

Les variables discrètes peuvent prendre un nombre fini de valeur. Ici, la date d’entrée, stockée sous forme de date, ne peut représenter que des jours de l’année. On peut les représenter par un histogramme car il n’y a pas de continuité.

Au contraire, les variables continues peuvent prendre un très grand nombre de valeur. Ici, le salaire de base peut comporter des centimes. Il existe donc 100 000 valeurs possibles entre les deux salaires de nos individus. On peut les représenter par des courbes car il existe une continuité.


Vous maitrisez maintenant les concepts de base des données et statistiques, félicitations !

Vous pouvez conserver l’image ci-dessous comme récapitulatif. C’est cadeau !

Cette image a un attribut alt vide ; le nom du fichier est recapitulatif-definir-les-donnees-2.png
En récapitulatif

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *