Linux : Les disques et le stockage

Appréhender les niveaux de RAID

Testez gratuitement nos 1302 formations

pendant 10 jours !

Tester maintenant Afficher tous les abonnements
Étudiez les différentes méthodes de regroupement de disques au sein d'un système RAID (Redundant Array of Independent Disks, regroupement redondant de disques indépendants). Ainsi, vous disposerez d'un support virtuel fiable.
08:30

Transcription

Alors, cette technologie RAID, qu'est-ce que c'est ? C'est une technique de virtualisation du stockage. Qu'est-ce que cela veut dire ? Ça veut que ça va me créer un disque dur virtuel qui sera physiquement composé de plusieurs disques durs physiques. Donc, c'est un disque dur virtuel composé de plusieurs disques durs physiques. Et nous, on va manipuler ce disque dur virtuel. Le fait que ce disque dur virtuel soit composé de plusieurs disques durs physiques, ça va me permettre de potentiellement avoir suffisamment de redondance, pour pouvoir palier à la panne d'un disque dur physique. Alors, c'est pas toujours le cas, on peut avoir de la redondance pour ça mais on n'est pas obligés de l'utiliser. L'acronyme RAID a été défini dans les années 1980 et aujourd'hui, ça n'a pas toujours été le cas, le RAID veut dire Redundant Array of Independent Disks soit un regroupement redondant de disques indépendants. Alors, comment va-t-on organiser plusieurs disques sous la forme d'un disque dur virtuel ? Il y a plusieurs manière de le faire, qui vont être classées dans ce qu'on va appeler des différents niveaux de RAID. Je ne vais pas tous vous les présenter je vais vous présenter les plus courants histoire qu'on comprenne le principe. Alors pour ça, le premier niveau de RAID que je vais vous décrire va être le RAID 0. Le RAID 0, qu'est-ce que c'est ? C'est la possibilité de mettre deux disques durs physiques ensemble dans un seul disque dur virtuel, c'est une technologie permettant d'avoir un disque virtuel ici qui est en orange, et dans le cas du RAID 0, le disque virtuel orange va avoir une volumétrie correspondant à la somme de la volumétrie de chacun des disques du RAID 0, des disques physiques présents. Ici, j'ai deux disques de 2 To, cela me donne donc une volumétrie de 4 To utilisables. Alors, cette technologie du RAID 0 est intéressante tout simplement parce qu'elle me permet d'avoir des volumétries de disques très importantes, supérieures potentiellement à la taille des disques physiques que l'on pourrait rencontrer ou avoir. Ce n'est pas le seul avantage, le principal avantage, c'est la vitesse. Parce que quand on va écrire une donnée, sur le disque orange, la donnée va être découpée en deux et il y a une partie qui va être écrite sur le premier disque en même temps que la deuxième partie de la donnée sera écrite sur le second disque. Donc, les deux disques vont être utilisés en parallèle, ce qui va m'accélérer à la fois les écritures et également les lectures des données. Mais attention, en terme de sécurité ce n'est pas terrible parce que si mon deuxième disque tombe en panne, mon disque virtuel ici est en panne. C'est comme si j'avais retiré mon disque virtuel. Si le premier disque tombe en panne, c'est également le cas. Donc, statistiquement parlant j'ai un risque de panne qui est plus important mais j'ai une vitesse qui est plus grande. C'est un compromis qu'il faudra trouver suivant les utilisations que vous allez faire de votre espace. Donc ça, c'est le RAID 0, qui ne m'apporte aucune sécurité mais qui m'apporte de l'agrégat et de la vitesse. En face du RAID 0, j'ai ce qu'on va appeler le RAID 1. Le RAID 1, qu'est-ce que c'est ? C'est une technologie qui me permet de créer un disque dur virtuel toujours en orange ici, composé de plusieurs disques durs physiques ici, j'ai toujours mes deux disques de 2 To donc c'est une autre manière d'organiser mes deux disques de 2 To, cependant, dans cette manière là, la volumétrie du disque RAID 1, du disque orange, est de 2 To qui correspond en réalité à la taille de plus petit des deux disques. À quoi ça correspond en réalité ? C'est que quand je vais écrire une donnée sur mon disque orange, elle va être ensuite physiquement écrite en même temps sur le premier et sur le second disque. Donc, les deux disques auront un contenu identique. L'intérêt du RAID 1 est que si mon premier disque ici tombe en panne, ma donnée est toujours physiquement présente dans le second disque. D'une part, je n'ai pas perdu ma donnée mais en plus comme elle est au sein d'un disque virtuel de type RAID 1, je continue d'accéder à la donnée. Ça me donne le temps de changer le disque qui est en panne, et les données de l'autre disque sont alors synchronisées, copiées sur le premier disque et je me retrouve à nouveau avec un disque en miroir. Donc, ça me permet de pouvoir continuer à travailler malgré le fait qu'un des deux disques est en panne, ça me permet de pouvoir le changer, donc ça m'apporte une certaine sécurité et surtout une continuité de fonctionnement. Le vrai souci du RAID 1, c'est que ça coûte très cher. Pas forcément très cher en terme de prix de disques durs parce que leur prix ont énormément baissé, en terme de coût notamment au giga octet. Mais ça me coûte très cher en terme de consommation de l'espace. On le voit ici, pour 2+2=4 To d'espace physiquement présent dans la machine je ne peux manipuler que 2 To d'espace utilisable puisque chaque écriture d'un octet me consomme un octet sur un disque plus un octet sur un deuxième disque donc ça multiplie par deux les écritures. 50 % de l'espace est consommé pour avoir cette redondance. Et pour pouvoir faire diminuer ce coût là, il y a d'autres technologies RAID qui ont été développées et notamment le RAID 5, mais c'est uniquement pour diminuer le coût que possède le RAID 1 en terme de consommation de l'espace. Donc, le RAID 5 qu'est-ce que c'est ? Il ne fonctionne pas avec deux disques, il faut au minimum trois disques et dans mon exemple ici, j'en ai quatre. Donc là, c'est un RAID 5 à quatre disques. Qu'est-ce que j'ai ? Quatre disques de 2 To. L'intérêt du RAID 5 est que dans cette configuration j'ai un espace utilisable de 6 To. Ce qui fait que ça ne me consomme que 25% de l'espace total pour pouvoir obtenir cette redondance. Alors comment on a fait ça ? Parce que ça ne vient pas sans un coût. Tout simplement, si je prends Data A que je veux enregistrer sur mon RAID 5 sur mon disque virtuel, Data A va alors être découpé en trois. Sur un RAID 5 à quatre disques la donnée est découpée en trois. Et la première partie de Data, Data A1 sera mise sur le premier disque, Data A2 sera sur le second et Data A3 sur le troisième disque. À partir de Data A1, A2 et A3 on va calculer une parité qui sera mise sur le quatrième disque. Cette parité est construite de telle manière à ce que si jamais je n'ai pas Data A1, je peux calculer, à partir de parités de Data A2 et A3, le contenu de Data A1. De la même manière, si je n'ai pas Data A2 je peux calculer à partir de Data A1, de la parité et de Data A3, le contenu de Data A2. Et si je n'ai pas Data A3, vous l'avez compris, Data A1, Data A2 et la parité me permettent de calculer Data A3. Donc ça veut dire qu'avec cette parité, je peux perdre n'importe lequel de ces disques, j'ai suffisamment d'informations pour recalculer la donnée manquante. Donc ça, c'est ce qui me permet vraiment d'augmenter la fiabilité à un coût plus faible que dans le cas du RAID 1. Attention j'ai mis d'autres données pour montrer que la parité n'est pas toujours sur le même disque. Elle va changer régulièrement de disque. Alors le RAID 5 est très intéressant, il a cependant de gros défauts, et notamment le premier est que si jamais je vais écrire une donnée ici, puis une ici, puis une ici, en terme de performance ce sera assez mauvais. Parce que si j'écris une donnée dans Data A2, je ne vais pas me contenter d'écrire Data A2, il va falloir que je recalcule la parité. Pour ça, il va falloir que je fasse des opérations de lecture pour lire les anciennes données, que je fasse une opération d'écriture de la nouvelle donnée, que je calcule la nouvelle parité et que je l'écrive. Et pour cette raison, en terme de performance d'écriture à des endroits aléatoires, le RAID 5 possède un déficit de performance qui est souvent compensé par des mémoires qui sont sur les cartes contrôleur RAID importantes pour pouvoir jouer le rôle d'un tampon et écrire des données rapidement, mais en terme d'écriture il y a quand même ce gros défaut qui est présent. Ça c'est le premier, le deuxième est que si jamais j'ai mon deuxième disque qui tombe en panne, il va falloir relire la totalité des autres données pour reconstituer les données du deuxième disque. Il ne faut pas que je tombe en panne pendant ce temps-là. Et la reconstruction peut durer assez longtemps. Donc pour se protéger contre le fait que si jamais j'ai un disque qui tombe en panne je ne suis plus protégé il y a le RAID 6 qui existe qui possède lui deux parités, permettant de supporter la panne de deux disques en même temps, vu que la reconstruction peut être assez longue. Alors comment va-t-on implémenter ça sous Linux, comment vais-je utiliser le RAID sous Linux, on va le voir tout de suite.

Linux : Les disques et le stockage

Initiez-vous à la gestion des volumes de stockage sous Linux. Abordez les notions de fichier et de partitionnement de disques, découvrez les systèmes RAID, etc.

2h28 (25 vidéos)
Aucun commentaire n´est disponible actuellement
 
Logiciel :
Spécial abonnés
Date de parution :25 avr. 2017

Votre formation est disponible en ligne avec option de téléchargement. Bonne nouvelle : vous ne devez pas choisir entre les deux. Dès que vous achetez une formation, vous disposez des deux options de consultation !

Le téléchargement vous permet de consulter la formation hors ligne et offre une interface plus conviviale. Si vous travaillez sur différents ordinateurs ou que vous ne voulez pas regarder la formation en une seule fois, connectez-vous sur cette page pour consulter en ligne les vidéos de la formation. Nous vous souhaitons un excellent apprentissage avec cette formation vidéo.

N'hésitez pas à nous contacter si vous avez des questions !