Le 14 septembre 2017, nous avons publié une version actualisée de notre Politique de confidentialité. En utilisant video2brain.com vous vous engagez à respecter ces documents mis à jour. Veuillez donc prendre quelques minutes pour les consulter.

L'essentiel d'Apache Spark

Installer Docker

TESTEZ LINKEDIN LEARNING GRATUITEMENT ET SANS ENGAGEMENT

Tester maintenant Afficher tous les abonnements
Pour cette formation, vous utiliserez des containers Docker pour simuler plusieurs nœuds d'Apache Spark. Mais, auparavant, vous installerez Docker.
06:07

Transcription

Avant d'entrer dans les détails, j'aimerai vous montrer comment j'ai mis en place l'environnement qui va me permettre de vous montrer cette formation sur Spark. Je suis sur un serveur Linux, en l'occurrence une machine virtuelle, mais peu importe. Et puis j'ai décidé d'utiliser Docker pour bâtir mon environnement Spark. Docker c'est un système de container. Ce ne sont pas vraiment des machines virtuelles, mais si vous ne connaissez pas Docker, c'est plus un système de containarisation de processus. Simplement, vous avez un système comme Linux, vous pouvez télécharger des images Docker qui vont contenir des logiciels pré-installés avec leur dépendance, et ensuite vous pouvez, à partir de ces images, créer des containers qui vont s'exécuter sur votre système Linux avec de très bonnes performances car le container n'embarque pas tout le système d'exploitation, il se contente d'exécuter d'une façon containarisée, d'une façon contrôlée des processus sur un système d'exploitation comme Linux. Donc l'avantage d'utiliser Docker c'est à la fois de pouvoir créer plusieurs containers sur la même machine pour simuler un Cluster, et ensuite, j'ai déjà des images à disposition qui comportent tout ce qu'il faut pour tourner Spark. Donc comment installer Docker sur, par exemple, mon système Ubuntu ? C'est très simple, j'ai suivit la documentation. J'ai récupéré ici avec « curl » une clé pour la signature des dépôts de Docker. Ensuite, j'ai ajouté, à l'aide de add-apt-repository ces dépôts dans ma liste de dépôts sur Ubuntu. Ensuite j'ai fait un sudo-apt-get-update pour mettre à jour la liste de ces dépôts, et puis j'ai fait un sudo-apt-get install Docker--engine pour installer le service Docker. Donc Docker tourne en tant que service. Je vais voir ici ce que ça donne. Donc pour me simplifier la vie j'ai fait un sudo su de façon à devenir « root ». Ce n'est pas forcément une très bonne pratique, mais sur votre machine individuelle, pourquoi pas. Le risque c'est que vous puissiez faire des commandes en oubliant que vous êtes en Superuser et vous pouvez provoquer des catastrophes, mais bon. Et ici, j'ai ensuite après installation de Docker--engine comme je vous l'ai montré dans la doc. J'ai fait un « service docker start » de façon à démarrer Docker. Si vous voulez vérifier si Docker est déjà démarré ou pas, vous pouvez utiliser la commande « service docker status » et vous voyez que, en étant vert, active (running). Je fais un petit Q pour quitter ceci. Donc tout va bien, mon service Docker est en train de tourner. Ce que j'ai fait également c'est un apt-get install docker-compose qui est un système basé sur des script qui permet de lancer, grâce à un fichier de configuration, en « yml », qui est un format texte, plusieurs container, donc de composer peut être un environnement de Cluster simulé sur cette machine à l'aide d'un fichier de configuration qui va dire « Lance un premier container et puis un deuxième avec telle ou telle propriété ». J'ai dû installer docker-compose parce que l'image de Spark que je vais télécharger utilise docker-compose. Voilà qui est fait. Ensuite, j'ai cherché une image Spark et j'ai trouvé docker-spark ici. Vous voyez sur GitHub que j'ai juste les sources de l'image, mais je n'ai pas besoin de m'occuper de cela parce que je vais pouvoir télécharger directement l'image de cœur à partir des dépôts de Docker. J'ai quand même récupéré ces informations parce que j'ai mon docker-compose.yml qui est ici, dont je vais avoir besoin. Que fait ce yml ? Il indique qu'il faut lancer deux containers. Un container nommé master, un container nommé worker. Deux containers qui sont en fait des instances de la même image si vous voulez. En exposant un certain nombre de ports, en mappant un certain nombre de volumes, donc tout ce dont j'ai besoin pour créer un master, c'est-à-dire une machine qui va servir de driver, et puis un worker qui va être la simulation d'un Cluster à deux nœuds. On pourrait en faire plus, mais pour nos exemples, ce ne sera pas nécessaire. Donc deux choses à faire pour cela. D'abord récupérer notre image qui s'appelle gettyimage docker-spark, et on peut la récupérer simplement en faisant un docker-pull de façon à récupérer l'image. Donc je vais utiliser directement Docker pour faire un docker pull qui est la commande Docker qui va permettre de récupérer une image dans les dépôts de Docker, et l'image s'appelle gettyimages/spark contrairement à ici, docker-spark. On a bien gettyimages spark qui est le nom de l'image dans les rites p-- docker. Alors, l'image est à jour, je l'ai déjà téléchargée, je n'ai plus besoin de le faire. Et ce que j'ai fait également c'est que j'ai créée un répertoire git. À l'intérieur, docker spark a été créée parce que, ce que j'ai fait c'est un git clone du git qui est ici de façon à récupérer le docker compose. Donc j'ai simplement fait quelque chose comme ceci. Git clone, l'adresse du git sur GitHub, et puis, j'ai récupéré rapidement le contenu. Il y a très peu de choses. Ici on me dit simplement « le chemin de destination existe déjà », Donc ça veut dire que je l'ai déjà téléchargé. Avec ça, j'ai mon docker-compose qui est ici. Je vais pouvoir utiliser docker-compose pour lancer mon environnement spark.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !