Avec le Big Data qui s’impose, les systèmes d’information des entreprises s’adaptent à ce volume toujours grandissant de données numériques en mettant en place des « lacs de données », ou Data Lake.
Cette solution de stockage de l’information bien spécifique est une opportunité pour la direction financière, à condition de bien comprendre son fonctionnement.
Data Lake, définition
Le Data Lake est, comme son nom l’indique, un véritable lac de données.
Un lac agit comme un collecteur d’eau, que celle-ci provienne de la pluie, d’une rivière ou de la fonte des neiges. L’eau est conservée sans distinction ou traitement spécifique, et reste disponible en permanence pour utilisation.
Un Data Lake fait de même avec l’information. Il collecte les données de différentes sources, les stocke indifféremment de leur forme (brute, semi-brute, raffinée) et les tient à disposition de l’utilisateur.
Data Lake ou Data Warehouse ?
Une erreur commune consiste à croire qu’un Data Lake est un simple « Data Warehouse » amélioré.
Si les deux systèmes ont effectivement un objectif commun de stockage des données, ils sont fondamentalement différents dans leur structure :
- Un Data Warehouse est structuré avant stockage, chaque donnée étant affectée à une partie bien définie de l’entrepôt. Dans un Data Lake, la sélection des données se fait après le stockage.
- L’accès aux données, bien organisées, d’un Data Warehouse est relativement simple. En revanche, seul un expert peut extraire des données d’un Data Lake.
- La structure d’un entrepôt de données doit être pensée avant sa mise en place, et ne peut plus être changée (ou très difficilement). Au contraire, le lac de données est très flexible et permet de s’adapter rapidement aux changements.
Il s’agit donc de deux manières de stocker l’information totalement différents.
Différentes solutions pour mettre en place un Data Lake
La mise en place d’un lac de données en entreprise est un projet important, qui demande de faire quelques choix stratégiques.
Lac de données : sur site ou dans le cloud ?
Le Date Lake peut être implémenté sur le site de l’entreprise, ou exister dans le cloud. Le choix est souvent basé sur les critères suivants :
- Espace physique : sur site, les serveurs demandent de la place et une infrastructure dédiée.
- Coût : les solutions cloud demandent un investissement initial bien moindre, mais peuvent s’avérer plus coûteuses sur le long terme
- Compétences informatiques : l’installation sur site oblige l’entreprise à avoir des experts sur place, tandis que la solution cloud permet de déléguer les tâches de configuration, maintenance et évolution
- Contrôle des données : il est plus facile d’exercer un contrôle des informations gardées sur site que si elles sont stockées dans le cloud, chez un tiers.
En général, les TPE et PME s’orientent vers une solution cloud, tandis que les grands groupes choisissent une installation sur site.
Les différentes architectures pour un Data Lake
Tous les lacs de données ont le même principe de base : le stockage des informations et leur traitement postérieur.
Il existe aujourd’hui 3 grands systèmes d’architecture qui dominent le marché des Data Lake :
- Hadoop : une solution « open source » reconnue et fiable dont le principal avantage est le prix.
- Amazon AWS : une gamme de produits complète répondant à une grande variété de besoins.
- Microsoft Azure : une solution sûre et performante, simple à intégrer.
Le choix de l’architecture la plus adaptée aux besoins de l’entreprise demande une analyse technique en profondeur et l’intervention de professionnels extérieurs.
Les avantages à utiliser un Data Lake
La structure du Data Lake présente de nombreux avantages, que l’on peut classifier en deux grandes catégories.
Grande capacité de stockage de données
Le lac de données est la meilleure solution pour conserver une grande quantité de données et ainsi garantir de disposer de toute l’information nécessaire.
L’absence de sélection et de traitement antérieure à l’intégration permet de s’assurer qu’aucune donnée n’est écartée. Mais, elle autorise aussi un stockage plus rapide et moins consommateur de ressources, car celui-ci ne demande pas de puissance de calcul importante.
Facilité de traitement de l’information
Les informations brutes du data lake peuvent facilement exploitées par les analystes et le machine learning. Par ailleurs, elles restent disponibles en permanence sous leur forme initiale, ce qui permet un traitement simultané par plusieurs algorithmes sans que celles-ci soient altérées.
Concrètement, cela signifie qu’une donnée relative au chiffre d’affaires peut être utilisée de manière différente par le service commercial, la direction financière et le département marketing sans aucune interférence ou perte d’information.
Les inconvénients d’un Data Lake
Comme vu plus haut, le Data Lake n’est pas une amélioration du Data Warehouse, mais une solution de stockage différente, qui n’est pas sans inconvénient.
L’accès aux données recherchées
Tenter d’accéder à une donnée spécifique dans un lac de données a remplacé chez certains informaticiens l’expression « chercher une aiguille dans une meule de foin ».
En soi, le Data Lake est inutile sans outil de traitement, d’analyse et de sélection qui permettent d’obtenir les informations voulues de manière rapide et précise.
La confidentialité des informations
Les données conservées dans un Data Lake venant de sources variées et de pays aux législations différentes. Il est donc difficile de s’assurer qu’un lac de données respecte les lois locales concernant la confidentialité des informations.
De même, des informations « à risque », comme des données financières par exemple, peuvent se retrouver dans un lac de données sans les protections nécessaires.
Pour l’anecdote, à ce jour la plus grande fuite de données informatiques ayant eu lieu n’est pas due à un groupe de pirates informatiques, mais à une erreur d’utilisation d’un Data Lake.
La bonne utilisation d’un Data Lake
Le lac de données est une excellente solution de stockage à condition de respecter quelques règles. Cela permet d’éviter qu’il ne se transforme en marécage de données (Data Swamp)
- Acquisition des compétences nécessaires. La mise en place et la maintenance d’un Data Lake ne s’improvisent pas et nécessitent une certaine expérience.
- Implication de l’ensemble de l’entreprise, et pas seulement du service informatique.
- Contrôle des données, pour s’assurer de la qualité et de la fiabilité de celles-ci.
- Formation aux outils informatiques utilisés.
Vous souhaitez en savoir plus sur les opportunités offertes à votre entreprise par un data Lake ? Vous pouvez contacter les spécialistes d’Altermès.
❓Vous vous posez des questions ? Vous attendez plus de valeur ajoutée ? Vous attendez plus de conseils ? Contactez nous pour réfléchir ensemble à votre situation
👆 Vous pouvez également consulter nos différentes offres d’expertise comptable ! Nous nous adaptons à la taille à la complexité de votre structure.