L'essentiel d'Apache Spark

Choisir une distribution Spark

Testez gratuitement nos 1257 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Comment utiliser Spark en production ? Voyez quelles sont les distributions pour un usage on premise ou sur le cloud.
03:47

Transcription

Maintenant que vous connaissez un peu mieux Spark, vous êtes impatients de l'utiliser en production. Pour l'instant, nous avons utilisé Spark sur du Docker, ce qui est tout à fait valable d'ailleurs en production également. Mais on a utilisé ici des conteneurs Docker plutôt pour faire du développement. Comment est-ce qu'on va monter notre serveur Spark de production ? Comment est-ce qu'on va installer Spark ? Alors vous avez plusieurs solutions. Vous pouvez aller directement sur le site de Spark, apache.org, dans les téléchargements, et télécharger Spark tout nu en choisissant une distribution, un type de package, Pre-built pour Hadoop par exemple, si vous avez déjà un cluster Hadoop et faire un téléchargement directement du tar.gz et puis l'installer. Ça, c'est vraiment la version manuelle. Ce que vous pouvez faire, c'est utiliser une distribution également que vous pouvez télécharger. Il y a de grands acteurs dans ce domaine : Hortonworks et Cloudera. Hortonworks et Cloudera vous mettent à disposition des packages d'installation pour tout le stack Hadoop pour toute la série d'applications autour de la fondation Apache pour Hadoop, Spark et tous les outils qui tournent autour. Donc vous pouvez ici télécharger des produits de type Data Platform, etc. Il faut savoir qu'Hortonworks et Cloudera, qui ont tous les deux des distributions bien faites, bien packagées avec un installeur et un système de supervision pour tout ce qui tourne autour d'Hadoop et de Spark, vous donnent des versions communautaires de leur environnement mais vous pouvez utiliser des éditions entreprise de leur environnement avec de la licence, bien entendu. Autre possibilité, aller directement dans un cloud public. Vous pouvez utiliser l'offre de Databricks qui est l'une des entreprises qui développent Spark. Ce que vous pouvez faire ici, et c'est très intéressant, c'est d'avoir votre cluster Spark géré par Databricks. Et avec plusieurs niveaux de licences. Et il y a un niveau de licence... Alors, on va regarder ici dans Pricing. Il y a un niveau de licence Community, si vous avez moins de trois utilisateurs. Vous pouvez avoir un mini-cluster de 6GB pour commencer à travailler avec Spark sans même faire une seule installation. Et puis ensuite vous avez des couches supérieures où vous allez payer quelque chose, et vous voyez que c'est sur AWS, donc sur Amazon Web Services. Alors justement, si vous voulez faire du cloud public directement, vous avez bien entendu les deux acteurs majeurs de ce domaine, Azure et AWS. Dans Microsoft Azure, Appache Spark est aussi disponible sous forme de version cloud, si vous voulez. Et la distribution dans Azure de Hadoop s'appelle HDInsight. Donc vous pouvez monter votre cluster Spark sur Azure, comme vous pouvez le faire sur AWS, donc sur Amazon Web Services. Sur AWS, c'est inclus dans la partie EMR, Elastic MapReduce, de l'offre de cloud d'Amazon. Et vous avez donc Apache Spark sur Amazon EMR. Vous créez un compte, vous montez vos VM pour le cluster, vos machines virtuelles, vos nœuds Spark sur le cloud d'Amazon et c'est fait. Donc vous voyez que vous avez beaucoup de solutions. Vous pouvez le faire à la main, si vous êtes déjà familiers avec des installations Hadoop par exemple. Autrement, vous pouvez faire des installations packagées On premises, c'est-à-dire chez vous, sur vos machines avec Hortonworls et Cloudera. Et autrement, du cloud public.

L'essentiel d'Apache Spark

Analysez des données volumineuses avec Apache Spark. Chargez vos données pour les analyser, profitez des opérations de transformation et des actions pour agréger vos données, etc.

3h11 (38 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :16 mars 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !