Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

Les fondements de l'informatique décisionnelle

Évoluer vers le Big Data

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Examinez les rapports entre l'informatique décisionnelle et le Big Data. L'analyse du volume distribué dans les nœœuds d'un cluster sera beaucoup plus importante.
04:24

Transcription

À moins que vous ne veniez à l'instant de vous réveiller d'une période d'hibernation prolongée, vous avez entendu parler du big data. Il y a encore 10 ou 15 ans, les volumes de données que nous avions à traiter en entreprise restaient modestes et en tous cas ils étaient tout à fait à la portée d'un disque dur traditionnel et pouvaient être traités sur une seule machine. En 2013, une étude technique prévoyait que le volume de données, jusqu'à 2020, allait être multiplié par 30. C'est probablement au-dessous de la réalité. L'informatique décisionnelle traditionnelle est basée sur l'analyse d'un volume gérable de données sur une seule machine, normalement prévue pour être assez puissante pour effectuer les calculs et répondre aux requêtes rapidement. Traditionnellement, lorsque le volume de données ou la complexité des requêtes augmentaient, on augmentait la capacité de la machine. C'est ce qu'on appelle la montée en charge verticale, ou en anglais scale up. Le problème de cette approche est qu'elle est limitée, bien entendu. Historiquement, il fallait faire des choix dans un système décisionnel. On ne pouvait pas forcément conserver un historique complet à la granularité la plus fine, ou analyser les données avec un nombre trop important d'attributs de dimensions, sinon le système ne pouvait plus offrir des performances acceptables. Dans le courant des années 2000, les grands opérateurs de l'internet qui commençaient à manipuler d'incroyables volumes de données ont cherché d'autres solutions et bâti des systèmes qui leur ont permis de monter en charge horizontalement, ce qu'on appelle du scale out, et qui consiste évidemment à répartir les données et les traitements d'analyses sur plusieurs machines. Le précurseur de cette approche est Google, qui a publié plusieurs comptes-rendus qui ont inspiré de nombreuses entreprises et de nombreux développeurs à créer des systèmes distribués. Le plus célèbre s'appelle Hadoop. Avec Hadoop, vous pouvez créer des clusters de plusieurs milliers et même dizaines de milliers de machines sur lesquelles vous pouvez répartir vos données et avec lesquels vous pouvez distribuer le traitement d'analyse de ces données. Hadoop étant libre, vous n'avez en plus pas à payer de licence, ce qui serait impraticable vu le nombre de nœuds de votre cluster. Grâce à ce genre d'outils, les entreprises ont pu réellement commencer à conserver toutes leurs données et à lancer des traitements d'analyses sur de gigantesques volumes en étant raisonnables. Il s'agit donc bien d'une analyse décisionnelle des données mais qui utilise une approche différente des bases OLAP traditionnelles. C'est une façon nouvelle de faire de l'analytique qu'on peut considérer comme révolutionnaire, ou complémentaire aux méthodes traditionnelles. Les éditeurs de systèmes décisionnels existants se sont rapidement adaptés pour inclure dans leur offre les distributions d'Hadoop et des passerelles pour effectuer des traitements volumineux distribués. C'est le cas de Microsoft, avec une distribution d'Hadoop qui s'appelle HDInsight, et un outil de requêtage d'un cluster Hadoop à l'aide d'une syntaxe SQL qui s'appelle PolyBase. TerraData offre les mêmes possibilités via leur offre Aster. En fait tout le monde s'y est mis ! Vous pouvez aujourd'hui bâtir un système analytique purement avec des outils libres de type big data, avec des outils comme Apache Spark ou Hadoop et Hive qui vous permettent d'effectuer des tâches d'analyses distribuées en interrogeant vos données avec des requêtes SQL, avec des langages comme Python ou R, ou avec des algorithmes de data mining qu'on appelle dans ce contexte du machine learning, toujours avec le langage R ou un module spécifique d'Apache Spark. Il vous appartient donc de choisir selon votre projet et la volumétrie des données si vous choisissez un outil de décisionnel traditionnel ou un environnement big data. Sachez que l'environnement big data peut demander plus de compétences, une administration plus complexe, mais il vous permet d'augmenter considérablement le volume des données que vous voulez analyser et de conserver un historique complet de ces données. Considérez également l'élément coût. Un système décisionnel traditionnel coûte en licence mais fonctionne sur une seule machine, alors qu'un système big data peut être gratuit mais implique d'être administré et distribué sur plusieurs machines, plus modestes certes, mais c'est quand même un coût à prendre en compte.

Les fondements de l'informatique décisionnelle

Abordez les principes fondamentaux de l’informatique décisionnelle. Explorez la gestion des données et leur traitement, les méthodologies et les technologies utilisées, etc.

1h05 (16 vidéos)
Aucun commentaire n´est disponible actuellement
 
Spécial abonnés
Date de parution :29 sept. 2016

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !