L'essentiel d'Apache Spark

Exploiter la SparkSession

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Jusqu'à présent, le point d'entrée de Spark était SparkContext, désormais remplacé par SparkSession. Dans cette vidéo, vous verrez comment accéder aux Datasets de Spark 2.
03:09

Transcription

Si on regarde dans la documentation de Spark, on voit qu'on se retrouve dans le même space, org, apache, oc, sql. Dans « org, apache spark sql », on a notre dataset, le voici, c'est donc un Dataset de T, on nous dit qu'on a une vue non typée, qui s'appelle Datafriend, qui est un Dataset de row, c'est ce qu'on disait. On apprend également que les datasets sont aussi lazy, c'est-à-dire paresseux et que le calcul sur le dataset va être finalement à peu près comme le RDD, créé au moment où on va en faire quelque chose, c'est-à-dire lorsqu'on a une action appliquée sur le dataset. Et le dataset va contenir un plan logique, c'est un peu comme un serveur SQL, où on va envoyer une requête et ce serveur va faire un plan d'exécution. On va pouvoir voir ce plan logique qui décrit les opérations à faire, à travers l'interface GUI Graphique, qu'on avait ouvert sur le port 40/40. On jettera un petit coup d’œil au passage, on a une fonction appelée « explain », un peu comme dans « My SQL », qui va expliquer la stratégie de Spark pour exécuter les opérations qu'on va lui demander. On a un Dataset et un Datafriend également, comment est-ce qu'on les ouvre et dans quel contexte ? On avait un spark context, celui-ci va plutôt nous servir pour du RDD. Ici, si on est dans Spark 1, on a un type de contexte appelé le « SQL context » et en Spark 2, comme il est indiqué ici, le contexte SQL qui existe encore pour compatibilité. En Spark, on est assez sensible à conserver une compatibilité avec les versions antérieures. Spark 2 va plutôt utiliser un concept plus général qui est la « Spark Session ». Donc, si vous travaillez avec Spark 2, vous n'allez pas ouvrir un SQL context mais vous allez ouvrir une session Spark et en l'occurrence, lorsque vous utiliserez les invites interactives, la session Spark est déjà créée. On va voir ça directement. Par exemple, en Python, j'ai préparé PySpark. PySpark nous dit qu'il y a une Spark session disponible en tant que Spark. On peut aussi utiliser un SQL context si on le veut mais ce n'est pas la peine. On a bien notre SQL context qui est créé ici. Et on a toujours notre Spark context qu'on connaît déjà et on a maintenant une Spark session qui est créée, ouverte et instanciée. Donc, pourquoi tout ça ? Parce que ce sont des couches de développement. A l'heure actuelle, vous êtes en Spark 2, 2.1.0 par exemple, comme ici, vous allez utiliser de préférence votre Spark session.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !