En tant que praticien des données, j'ai réalisé qu'il y a une chose souvent négligée par les analystes : l'infrastructure. Je peux dire que j'ai eu la chance (ou béni) de travailler avec des organisations qui ont géré l'infrastructure pour moi. D'autre part, j'ai également pris sur moi de gérer mes propres données à des fins éducatives et de formation. En ce qui concerne mes données, les miennes ne touchent même pas à ce que vous considéreriez comme un montant gargantuesque. Ce n'est même pas près d'un million de lignes, ce qui est à peu près le seuil de ce qui est considéré comme un petit montant. La dernière fois que j'ai vérifié, j'avais un tableau avec un peu plus de 300 000 lignes.
Dans le grand schéma des choses, ce volume de données n'est pas difficile à gérer ou à traiter. Cependant, quand vous avez autant de lignes et si peu de temps et de ressources, comment le gérez-vous ? Dans cet article, je vais partager quelques-unes des options et avenues que j'ai vues des organisations prendre, ce qui peut exister et quelles sont certaines des meilleures approches (ainsi que les choses à surveiller). Alors, commençons!
Avis de non-responsabilité
Avant de commencer par quoi que ce soit de concret, je dois dire qu'aucune solution unique ne convient à tout le monde. Dans mon expérience d'analyse pour des organisations avec des millions de lignes de données, j'ai dû comprendre les nombreuses nuances uniques du traitement de grands ensembles de données divers. En travaillant avec des bases de données et des systèmes de données qui vont des transactions de vente à la main-d'œuvre et à la téléphonie, je rencontre de nombreux détails différents et complexes que les organisations doivent prendre en compte lorsqu'elles planifient leur parcours vers le cloud. Plus souvent qu'autrement, ce qui est juste pour une organisation peut être totalement faux pour une autre. Assurez-vous de considérer votre cas et votre application spécifiques avant de prendre une décision. Pour cette raison, je vais essayer de parler en termes généraux afin que, que vous et votre organisation soyez au début de votre parcours de données ou que vous et votre organisation soyez plus près de la fin, il y aura des informations utiles pour vous.
Rapide et simple
Dans le domaine du « bon et sale », il existe plusieurs options et considérations. Une option consiste à utiliser des fichiers plats - des bases de données texte qui stockent des données au format texte brut - et à les combiner dans l'outil que vous allez utiliser pour les traiter, que ce soit Power Query, Power BI, Excel, Tableau ou tout autre. Cela fonctionne pour des plages de données, mais généralement, de « petites » quantités de données fonctionnent mieux ici. L'un des principaux avantages de cette approche est qu'elle permet aux organisations d'héberger des données sur un stockage cloud peu coûteux et de fournir un accès aux utilisateurs de ces données.
Comme je l'ai indiqué au départ, j'ai travaillé avec des organisations qui gèrent cela pour moi et j'ai utilisé des solutions comme SharePoint, OneDrive et les plateformes Microsoft 365 et Power. La méthode du fichier plat fonctionne bien pour des applications spécifiques, mais n'est certainement pas une solution universelle. Si la destination est un outil qui ne combine pas facilement les fichiers (tels qu'Excel, Power BI ou un outil/script personnalisé), le stockage de fichiers plats ne fonctionnera pas. De plus, si vous disposez de grandes quantités de données (plus de 10 Go ou plusieurs millions de lignes), cette solution peut rapidement s'essouffler et devenir problématique pour votre application. N'oubliez pas que les fichiers Excel ont une limite d'un million de lignes si vous utilisez ce type de fichier sur CSV ou JSON, c'est donc un rationnement important à prendre en compte si vous traitez de grandes quantités de données. Si vous venez de commencer et que vous souhaitez développer des options, cela pourrait être la voie à suivre.
Vers le cloud ?
Si vous envisagez d’opter pour le cloud et que vous avez une quantité importante de données à stocker, il y a quelques points à considérer avant de franchir le pas. Le fournisseur de cloud lui-même est un élément important à prendre en compte, car il déterminera le montant que vous finirez par payer pour le stockage. Les prix et les structures de prix varient considérablement d'un fournisseur à l'autre et peuvent très bien être le principal facteur décisif. Cependant, lorsque vous superposez une stratégie de données robuste et bien définie, vous pouvez trouver ce point idéal qui convient parfaitement à vos besoins. Ce point idéal doit être un équilibre entre le coût du fournisseur et le temps consacré à l'administration et à la maintenance des données. Les coûts du fournisseur doivent également être comparés aux coûts potentiels des ressources d'une infrastructure sur site alternative ainsi qu'à la main-d'œuvre qualifiée nécessaire pour maintenir cette infrastructure. Le coût du fournisseur doit être équilibré par rapport à la demande des utilisateurs et aux options d'évolutivité, où de nombreux fournisseurs de cloud proposent des solutions pour des rafales de forte demande à court terme et une évolutivité à long terme.
Pérenniser votre solution cloud
Croissance et utilisation des données
Il est important de comprendre les besoins à long et à court terme. Considérez la quantité de données que vous stockez aujourd'hui. Combien de données incrémentielles stockez-vous sur une base mensuelle, hebdomadaire et annuelle ? De plus, pensez à la façon dont ces données vont croître au fil du temps. Stockez-vous un million de lignes de données qui augmentent de 5 % par année ? Ces facteurs sont essentiels car une solution de stockage qui fonctionne aujourd'hui peut ne pas fonctionner demain. Pensez à ce que le reste de l'organisation fait maintenant et à ce qu'ils prévoient de faire à l'avenir en termes de traitement des données. Supposons que votre organisation consomme et analyse des données dans Excel mais souhaite passer à Power BI, envisagez des solutions qui fonctionnent pour les deux ou qui sont mieux adaptées pour PBI. Si votre organisation souhaite adopter Tableau ou des solutions internes, optez pour les plates-formes qui fonctionnent le mieux avec ces outils.
Coûts d'infrastructure, de maintenance et d'utilisation
En déterminant votre décision de migrer vers le cloud, ça implique plus que le budget. Assurez-vous de considérer toutes les implications et de peser TOUS les coûts :
• Investissements en capital dans l'infrastructure, les licences logicielles, les mises à niveau
• Investissements en main-d'œuvre pour les correctifs, la maintenance de la base de données, l'importation et l'exportation et l'intégrité des données
• Coûts d'utilisation, y compris d'un mois à l'autre les frais de stockage, les frais d'entrée et de sortie, et éventuellement la traversée des lignes, car certains fournisseurs facturent en fonction des requêtes qui traversent de nombreuses lignes
Considérations relatives à la demande des consommateurs
Dans tout exercice de stockage de données, il existe essentiellement deux considérations d'utilisation : les besoins des applications et les besoins des utilisateurs. Bien que l'on puisse penser qu'ils sont identiques, la réalité dit le contraire. Si vos besoins en données tournent autour d'une application (pensez à n'importe quelle plateforme de commerce électronique comme Amazon qui crée des comptes d'utilisateurs pour des particuliers, stocke des informations personnelles et fournit des services supplémentaires spécifiques à l'utilisateur), les besoins en données sont très différents des besoins de l'utilisateur. Un utilisateur peut avoir besoin d'accéder à de nombreuses années d'informations historiques, alors qu'une application peut n'avoir besoin que de 90 jours. L'application peut avoir besoin d'informations précises et détaillées, et la sécurité peut être une préoccupation majeure. Les utilisateurs, en revanche, peuvent travailler avec des informations moins granulaires.
Solutions?
Je m'en voudrais de ne pas proposer des solutions. Voici quelques directives générales que vous pouvez utiliser pour développer une stratégie saine pour gérer vos données et potentiellement économiser sur les coûts.
Conservez vos données les plus utilisées dans les endroits les plus accessibles.
Les données peuvent être stockées dans des tables agrégées pour réduire le volume et la quantité de stockage requis. Les données récentes peuvent être stockées dans le cloud, tandis que les données d'archives peuvent résider dans des solutions de stockage locales moins chères.
Segmenter et diviser. Une organisation avec laquelle je travaillais (un détaillant national) explorait le stockage de données dans le cloud et a rencontré des problèmes de « traversée des lignes » (ce qui signifie que les requêtes des analystes couvraient des millions de lignes), ce qui rendait les requêtes coûteuses. Une solution consistait à implanter le partitionnement afin que les requêtes soient moins coûteuses.
Exploiter les ressources existantes.
Cette même organisation déployait Power BI dans toute l'organisation. Étant donné que la plupart des utilisateurs disposaient déjà d'une licence Power BI Pro, ils ont découvert qu'ils pouvaient en profiter pour stocker un ensemble de données raisonnablement volumineux et complet, avec toute la sécurité appropriée qui lui est appliquée, dans le service Power BI (le cloud). Cela a permis aux analystes de se connecter à cet ensemble de données robuste qui a été mis à jour avec une « actualisation incrémentielle ». Étant donné que l'organisation a déjà payé pour Power BI, l'exploitation des dépenses existantes a permis de réduire les coûts et d'apporter les bonnes données aux bonnes personnes au bon moment.
Faire une incursion dans le stockage de données basé sur le cloud peut être une tâche ardue. S'il est bien fait, cet effort peut être le catalyseur qui libère le plein potentiel de votre organisation. Prendre le temps d'analyser l'utilisation actuelle des données, les besoins et les tendances peut aider à prendre la bonne décision pour toutes les personnes impliquées.
Si vous êtes à la recherche de plus de conseils sur la façon de gérer plus efficacement vos données dans le cloud, contactez-moi à tout moment. Je serais ravi d'en discuter avec vous.