Nous mettrons à jour notre Politique de confidentialité prochainement. En voici un aperçu.

Les fondements de l'informatique décisionnelle

Importer des données

Testez gratuitement nos 1336 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Initiez-vous à l'importation de données à l'aide d'outils d'ETL, à l'extraction, à la transformation et au chargement. Abordez aussi la notion de base de données de staging.
04:42

Transcription

Puisque nous avons séparé le système opérationnel et le système décisionnel, nous devons naturellement importer régulièrement les données de leur source OLTP vers leur destination OLAP. Avant de parler plus technique, restons un instant sur la fréquence d'importation. Elle est dictée par deux aspects : un aspect de faisabilité technique et un aspect purement fonctionnel. Si vous demandez à un manager quelle fréquence de rafraîchissement il souhaite, c'est-à-dire lorsqu'il consulte ses données analytiques, quelles sont les informations les plus récentes qu'il veut pouvoir observer, il vous répondra immanquablement qu'il lui faut les données en temps réel. Selon vos choix techniques, c'est peut-être possible, mais le plus souvent, puisque vous importez du système opérationnel vers l'environnement décisionnel, vous aurez nécessairement un délai. Il vous faut réaliser l'importation de l'OLTP vers un data mart avec transformation et nettoyage des données, peut-être avec un passage par une base de données de staging, puis si vous avez opté pour un stockage de type MOLAP, les cubes doivent être régénérés avec les nouvelles données provenant du data mart. Dans ce contexte, il est évident que vous ne pouvez pas avoir des données en temps réel. Il faut donc en général négocier avec votre manager pour décider d'une fréquence de rafraîchissement qui puisse satisfaire à la fois les contraintes techniques et les besoins fonctionnels. Une fréquence d'importation assez classique est une fois par jour. Cela dit, voyons les outils adaptés. L'importation des données est souvent effectuée par un ETL. Nous en avons déjà parlé : Extract, Transform, Load. Extraction, transformation, chargement. C'est un outil graphique qui permet de dessiner le flux des changes de données et d'y ajouter une série d'opérations de transformation. Il en existe plusieurs sur le marché : SQL Server Integration Services dans la suite décisionnelle de Microsoft, DataStage chez IBM, Oracle Data Integrator, Informatica, et dans le domaine du libre, TalenD. Un outil ETL comporte des connecteurs pour différentes sources de données : bases de données hétérogènes, fichiers plats, par exemple, séparés par virgule. Et une fois chargées dans l'ETL, les données passent par une phase de transformation qui applique des opérations, ou des règles, sur les données en transit. Les principales opérations de transformation sont la résolution de données de référence, l'ajout d'informations d'audit, une date d'importation, par exemple, le nettoyage des données, la génération de clés artificielles pour les dimensions à évolution lente, ou encore l'agrégation des données à la granularité de la table de faits. En fait, la qualité d'un outil ETL se juge à la richesse de ses connecteurs pour l'importation et à ses capacités de transformation. Les plus sophistiqués permettent de nettoyer les données avec des algorithmes de recherche flous, un cas classique étant la correction d'erreur de saisie, par exemple l'uniformisation des noms de villes qui sont saisies avec des tirets, des espaces ou avec des accents ou sans accent. Dernière opération, le chargement. Il peut s'effectuer directement dans le schéma en étoile ou en flocon du data mart ou passer par une base de données de staging, ce qui va permettre de travailler encore avec les données à l'aide de scripts SQL. À ce sujet, notons que les processus ETL ont l'avantage d'être faciles à développer et à maintenir grâce à l'environnement graphique. Mais ils posent parfois des problèmes de performance parce qu'ils traitent des flux de données avec des algorithmes principalement séquentiels. En d'autres termes, un ETL travaille ligne par ligne et plus le volume est important, plus le traitement est lent. Pour bon nombre de transformations simples, par exemple la résolution des données de référence, les bases de données relationnelles sont beaucoup plus rapides et travaillent sur un ensemble de données en une seule fois. Pour améliorer les performances, on peut aborder l'importation des données sous une forme plus ELT. Bien sûr, ça veut dire : extraction, chargement (load) et ensuite transformation. On choisit alors d'utiliser l'outil ETL uniquement pour l'export et l'import dans une base de données de staging et ensuite on effectue toutes les transformations nécessaires à l'aide de requêtes SQL dans cette base temporaire avant de copier les données finales, toujours par requête SQL, vers le data mart. Si vous êtes à l'aise en SQL et que vous voulez optimiser les performances de la phase d'importation, c'est une très bonne solution.

Les fondements de l'informatique décisionnelle

Abordez les principes fondamentaux de l’informatique décisionnelle. Explorez la gestion des données et leur traitement, les méthodologies et les technologies utilisées, etc.

1h05 (16 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :29 sept. 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !