Cet article est une annexe du Grand Livre Blanc de la Data RH à paraître. Vous pouvez vous inscrire pour le recevoir en exclusivité en cliquant sur ce lien.
Sommaire
Des milliers d’offres, une simple question
Imaginez que vous souhaitez connaître l’importance d’une thématique, au hasard, la Data, au sein d’une profession. Une approche pourrait être de questionner tous les professionnels RH (je l’ai fais aussi, je vous explique tout ici). Cette approche, bien que plus profonde, nécessite un travail énorme pour toucher un large public.
Il est alors possible d’utiliser un moyen détourné : Les offres d’emploi.
On peut considérer que les offres d’emploi propose une vision relativement fidèle des pratiques des entreprises. Bien entendu c’est incomplet, bien entendu c’est de qualité variable.
Néanmoins, lorsque l’on dispose d’un grand volume de données, ces imprécisions se gomment. Un grand merci donc à Hellwork qui m’a partagé 160 000 (oui vous avez bien lu) offres d’emploi RH entre septembre 2023 et septembre 2025.
Mais comment identifier les thématiques Data dans ces 160 000 lignes ? On pourrait compter à la main, mais ça serait long, où on peut utiliser la puissance de la Data.
Etape 1 : Nettoyer
Avant toute analyse, les données doivent être exploitables. Cette étape de nettoyage, souvent fastidieuse, est essentielle. Heureusement, il est possible d’automatiser tout cela avec Python.
Notre fichier brut contenait plus de 160 000 offres avec de nombreuses colonnes. Première mission : sélectionner les informations pertinentes et écarter les redondances (colonnes dupliquées, identifiants techniques inutiles, etc.).
Ensuite, traquer les valeurs parasites : des chaînes vides au lieu de vraies valeurs manquantes, des espaces superflus, des incohérences de format. Les données brutes réservent toujours des surprises.
Enfin, normaliser pour pouvoir comparer : mettre en minuscules, harmoniser les formats de dates, transformer les catégories en minuscules sans espaces parasites.
Résultat : un fichier propre où chaque ligne représente une offre d’emploi avec sa description et le profil recherché fusionnés dans un champ unique, prêt pour l’analyse.
Etape 2 : Définir le lexique
Lorsque l’on fait de l’analyse textuelle il y a 3 approches :
- L’approche purement naïve, déjà présentée ici, on passe un algorithme et on verra bien
- L’approche LLM, qui est nouvelle. Elle marche bien sur des volumes relativement restreint mais reste couteuse
- L’approche guidée, parce qu’un expert sait quoi chercher
Ca tombe bien, puisque ce sujet de la Data est mon domaine de spécialité ! J’ai donc suivi une approche guidée.
La première étape consistait à définir ce que je cherchais. Pour cela j’ai défini deux grandes familles de compétence
– GESTION : tout ce qui relève de l’administration, la structuration, la conformité des données
– VALORISATION : tout ce qui touche à l’analyse, la prise de décision, l’exploitation stratégique
Ensuite, pour chaque domaine, j’ai regroupé les principaux mots clés. Bien entendu j’ai réalisé des arbitrages. C’est la connaissance terrain qui fait toute la différence.
Voici un extrait :
LEXIQUE_GESTION = {
'Gouvernance et qualité': [
'gouvernance de la donnée', 'gouvernance des données',
'data governance', 'qualité des données', 'data quality',
'data steward', 'fiabilité des données',...
],
'Protection des données': [
'rgpd', 'gdpr', 'conformité des données',
'protection des données', 'sécurité des données',
'traçabilité des données', 'audit des données',...
],
'Architecture et modélisation': [
'architecture data', 'modélisation de données',
'data warehouse', 'data lake', 'base de données',
'ETL', 'migration de données',...
],
'SIRH et outils': [
'sirh', 'système d\'information des ressources humaines',
'outils rh', 'logiciels rh', 'solution rh',...
]
}
LEXIQUE_VALORISATION = {
'Reporting & contrôle de gestion social': [
'reporting', 'reporting rh', 'bilan social',
'tableau de bord', 'dashboard', 'contrôle de gestion social',
'pilotage de la masse salariale',...
],
'People analytics & visualisation': [
'people analytics', 'hr analytics', 'workforce analytics',
'analytics', 'data storytelling', 'data driven',
'data visualization', 'power bi', 'tableau'...
],
'Excel': [
'excel', 'vba', 'macro','tableur', 'feuille de calcul',...
]
'PowerBI': [
'powerbi', 'power bi', 'power-bi',
],
}
Pourquoi un algorithme seul ne suffit pas ?
J’aurai pu laisser un algorithme de machine learning identifier automatiquement des thèmes comme présenté ici. Mais sans connaissance métier, il aurait regroupé « Excel » avec « data visualization » simplement parce que ces termes coexistent souvent.
Or, la nuance RH est ailleurs : en distinguant Excel de la Data visualisation, j’isole un outil de ses pratiques. Ce qui me permet de noter la décroissance d’Excel au profit de PowerBI par exemple.
Etape 3 : Détecter les mots clés
La détection des mots clés n’est pas qu’un simple comptage. J’ai dû relever plusieurs défis :
Eviter les faux positifs
Imaginez que vous cherchez le terme « Excel » dans les offres. Si vous faites une recherche simple, vous allez aussi détecter « excellent », « excellence », « exceller »… autant de faux positifs qui polluent l’analyse.
Solution : utiliser une détection par mots entiers (word boundaries). On ne cherche pas juste la chaîne « excel » n’importe où, mais uniquement quand elle constitue un mot à part entière. Ainsi « Excel » est détecté, mais pas « excellent ».
Tolérer les fautes de frappe
Les offres d’emploi sont rédigées par des humains, et les humains font des fautes. « Gouvernance » peut s’écrire « gouvernace », « people analytics » peut devenir « people analytic », « référentiel » peut perdre son accent…
Solution : le fuzzy matching (correspondance floue). Cela permet de capturer les variantes et fautes courantes sans ouvrir la porte à n’importe quoi. « Gouvernace » sera reconnu comme « gouvernance », mais « gouvernement » ne le sera pas. Cet algorithme dispose d’un paramètre de sensibilité permettant d’éviter les faux positifs.
Défi n°3 : Gérer les synonymes
Notre lexique contient déjà des synonymes : « RGPD » et « GDPR », « tableau de bord » et « dashboard », « data warehouse » et « entrepôt de données ». L’algorithme parcourt tous les termes d’une thématique, et dès qu’un seul est trouvé, la thématique est validée.
Solution : pour chaque offre, on applique cette détection :
- On parcourt tous les termes du lexique GESTION
- On parcourt tous les termes du lexique VALORISATION
- On compte combien de thématiques différentes sont présentes dans chaque catégorie
Résultat : chaque offre est annotée avec ses thématiques. Par exemple, une offre mentionnant « RGPD », « saisie de données » et « SIRH » sera taguée avec trois thématiques de GESTION : « Protection des données », « Gouvernance et qualité », et « SIRH et outils ».
Étape 4 : Scorer et classifier
La dernière étape consiste à donner un score à chaque offre pour la GESTION et la VALORISATION.
J’ai essayé de mesurer le poids de la thématique Data dans les offres. Néanmoins, ces dernières sont trop hétérogènes pour que la métrique soit pertinente. J’ai donc décidé de calculer le poids relatif de chacun des thématiques. Ceci me permet d’identifier la dominante entre Gestion et Valorisation.
Le calcul des poids
Plus une offre mentionne de thématiques d’un domaine, plus son poids dans ce domaine est élevé :
Grace à cela, j’ai pu définir des dominantes Gestion ou Valorisation. Pour se faire j’ai posé un seuil à 60% par simple essai erreur.
Etape 5 : exploiter les données
J’ai ensuite exporté le fichier final et réalisé les analyses expiatoires dans PowerBI. En effet, pour exploiter 160 000 lignes dont beaucoup de texte il faut une importante capacité de calcul que Excel ne permet pas.
Conclusion : la donnée sans le métier, c’est comme une carte sans légende
Cette démarche illustre un principe fondamental : la technique seule ne suffit pas.
Un data scientist peut maîtriser Python, les expressions régulières, le machine learning. Mais sans la connaissance métier des RH, il ne saura pas :
- Que « DSN » est un enjeu de gestion de données RH
- Qu’il est intéressant de dissocier « Contrôle de Gestion Sociale » et « People Analytics »
- Que « SIRH » et « data warehouse » appartiennent à des univers différents dans la pratique RH
Le lexique est le cœur du dispositif. Et ce lexique ne peut être construit que par des experts métier. En l’occurrence on parle de Data RH. Mais appliquez ce même raisonnement aux compétences et les frontières deviennent plus étanches.
C’est cette synergie entre expertise métier et compétences data qui permet de transformer 160 000 offres brutes en insights exploitables.
Retenez bien : vous RH n’êtes pas seulement les utilisateurs finaux des analyses de données : vous en êtes les architectes.