Une histoire de données

Notre société actuelle offre une quantité astronomique de données. Il y a en conséquence un métier qui revient souvent sur le marché du travail. Le data analyst/data scientist. Lui même, accompagné d’une panoplie d’outils digitaux pour collecter, structurer et présenter des données.

Il est intéressant de questionner ce métier et les outils qui vont avec de manière quotidienne et intensive. La profusion de données nous aide-t-elle à prendre les meilleures décisions ? Nous dirige-t-elle vers une meilleure société ? Nous rapproche-t-elle d’une réalité physique ? Ou au contraire, n’ajoute-t-elle pas encore plus de bruit à l’univers ambient.

« Tout ce que je sais c’est que je ne sais rien »
— Socrate

Je suis d’avis qu’il est sage de rester prudent et très critique au sujet de l’interprétation des données tout comme avec les profils professionnels qui se présentent comme des spécialistes dans le domaine. Commençons par démystifier la profession de data scientist. Car souvent, pas toujours heureusement, il y a abus de language dans l’utilisation de ce titre valise par rapport à la réalité du terrain.

On imagine bien, et non à tort, que le/la data scientist est une personne qui fait des recherches approfondies sur des problèmes sérieux, qu’il/elle utilise des solutions de pointe tout en appliquant de nombreuses méthodes pour donner un sens aux données. C’est la réalité pour certains chanceux, mais la plupart du temps, le/la data scientist fait des statistiques qu’il/elle programme avec python.

On est souvent loin de l’exotisme du deep learning, du computer vision et du machine learning

En réalité, le/la data scientist est souvent bloqué par le système d’information mis en place dans l’entreprise. De plus, parfois, l’organisation, les RH et le management ne savent pas vraiment ce que fait concrètement un/une data scientist. Le terme est éposidiquement utilisé à tort dans certain processus de recrutement comme un buzzword. Si bien qu’au final le spécialiste en data science se retrouve à utiliser des requêtes SQL, nettoyer des données et créer des tas de déchets que nous appelerons un ensemble de données.

Pas très sexy tout ça, mais il y a plus préoccupant ! Il s’agit de la validation et de la certification de la donnée générique. D’ou vient-elle, qui est-elle, où va-telle. La donnée de base est-elle fiable ? Est-elle juste ? Question importante car on construit des nouvelles données (une projection du futur) avec des données antérieures. On imagine bien qu’un moindre écart dans les paramètres et la méthodologie (input) aura un impact considérable sur l’histoire finale (output). Un peu comme le ferait l’effet du jeu du téléphone, la rumeur ou le bouche à oreille.

La donnée est-elle fiable ?

Si l’on prend l’exemple du comptage international quotidien du nombre de décès liés au COVID-19 on peut constater que les méthodes diffèrent entre pays. Par exemple, la simple distinction du paramètre “mort du COVID” ou “mort avec la COVID” n’est pas réalisée et le choix de l’un ou l’autre raconte en conséquence une histoire très différente. On comprend bien que des petits écarts dans les paramètres au départ produisent des grands écarts dans les résultats finaux. D’où cette question cruciale : la donnée de base est-elle fiable, standardisée et certifiée ?

A quand une organisation mondiale qui certifierait les données ?

Effectivement, il faudrait ajouter cette notion de certification dans une monde où les données sont accessibles et où les technologies pour les traiter le deviennent de plus en plus. Dans l’idéal, il s’agirait d’une banque de données certifiée, standardisée et régulée. Pour analyser et produire de nouvelles données on s’appuierait sur le modèle : 1. Données, 2. Puissance computationnelle, 3. Expertise 4. Certification. On se rapprocherait peut-être vers une forme de vérité ou moins ambitieux - on commencerait à parler la même langue.

Soif de données ? Regardez ça ! https://opendata.swiss/fr/

Marco Domeniconi

Services : ICT, Contenu, Marketing, Stratégie, Branding, Outreach, eCommerce

Développement de produits et services

Architecture et développement des systèmes d’information

Production de contenus

Stratégies et actions marketing

Branding

Développement des audiences et canaux de communication

Ventes et eCommerce

https://www.hypergrowth.ch
Précédent
Précédent

La meilleure tech ne remplace pas votre belle voix !

Suivant
Suivant

Revolutionizing programming