« L'homme qui déplace une montagne commence par déplacer les petites pierres.  »

Recherche glossaire

Rechercher dans les définitions (terme ou expression)
Commence par Contient Terme exactSe prononce comme

Traduction

frendeitptes
Print Friendly, PDF & Email
Etoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactivesEtoiles inactives
 

Deduplication

La deduplication est une technologie visant à optimiser l'espace de stockage en ne stockant qu'une seule fois les données dupliquées sur le disque tout en conservant les différents points d'accès.

Comprendre

Composants de déduplication des données

Pour réduire l’utilisation du disque, La déduplication des données analyse les fichiers, puis divise ces fichiers en morceaux, et ne conserve qu’une seule copie de chaque morceau. Après la déduplication, les fichiers ne sont plus stockés en tant que flux de données indépendants. Au lieu de cela, la déduplication des données remplace les fichiers par des talons qui pointent vers les blocs de données qu’elle stocke dans un magasin de morceaux commun. Le processus d’accès aux données déduliquées est totalement transparent pour les utilisateurs et les applications. Vous pouvez constater que la duplication des données augmente les performances globales du disque. Plusieurs fichiers peuvent partager un morceau mis en cache en mémoire ; par conséquent, ce morceau est lu à partir du disque moins souvent.

Pour éviter les problèmes de performances sur disque, la déduplication des données s’exécute en tant que tâche planifiée plutôt qu’en temps réel. Par défaut, l’optimisation s’exécute une fois par heure en tant que tâche en arrière-plan. Toutefois, selon le type d’utilisation configuré, l’âge minimum du fichier peut être de trois jours.

Le service de rôle de déduplication des données se compose de plusieurs composantes, notamment :

  • Pilote de filtre. Ce composant surveille l’entrée/sortie locale ou distante (I/S) et gère les morceaux de données du système de fichiers en interagissant avec les différents travaux. Il y a un pilote de filtre pour chaque volume.
  • Service de déduplication. Ce composant gère les types de tâche suivants :
    • Composés de plusieurs tâches, ils effectuent à la fois la déduplication et la compression des fichiers selon la stratégie de déduplication des données pour le volume. Après optimisation initiale d’un fichier, si le fichier est ensuite modifié et répond au seuil de stratégie de déduplication des données pour l’optimisation, le fichier sera optimisé à nouveau.
    • Collecte des informations périmées. La déduplication des données inclut les tâches de collecte des informations périmées pour traiter les données supprimées ou modifiées sur le volume afin que tous les morceaux de données qui ne sont plus référencés soient nettoyés. Ce processus de travail précédemment supprimé ou logiquement remplacé est optimisé pour créer de l’espace libre de volume utilisable. Lorsqu’un fichier optimisé est supprimé ou remplacé par de nouvelles données, les anciennes données du magasin de morceaux ne sont pas supprimées immédiatement. Bien que la collecte des ordures soit planifiée pour s’exécuter chaque semaine, vous pouvez envisager d’exécuter la collecte des ordures seulement après que de grandes suppressions ont eu lieu.
    • La déduplication des données dispose de fonctionnalités intégrées d’intégrité des données telles que la validation de checksum et la vérification de la cohérence des métadonnées. Il a également intégré la redondance pour les métadonnées critiques et les morceaux de données les plus populaires. Au fur et à mesure que les données sont consultées ou que les tâches de déduplication traitent les données, si ces fonctionnalités rencontrent la corruption, elles enregistrent la corruption dans un fichier journal. Les travaux de nettoyage utilisent ces fonctionnalités pour analyser les journaux de corruption de magasin de morceaux, et si possible, pour faire des réparations. Les opérations de réparation possibles comprennent l’utilisation des trois sources de données redondantes suivantes :
      • Copies de sauvegarde. Deduplication conserve des copies de sauvegarde de morceaux populaires (morceaux référencés plus de 100 fois) dans une zone appelée hotspot. Si la copie de travail subit des légers dommages tels que des flips de bits ou des écritures altérées, la déduplication utilise sa copie redondante.
      • Image miroir. Si vous utilisez des espaces de stockage en miroir, la déduplication peut utiliser l’image miroir du morceau redondant pour servir l’E/S et corriger la corruption.
      • Nouveau morceau. Si un fichier est traité avec un morceau qui est endommagé, le morceau corrompu est éliminé, et le nouveau morceau entrant est utilisé pour corriger la corruption.

Remarque : En raison des validations supplémentaires intégrées à la déduplication, le sous-système de déduplication est souvent le premier système à signaler tout signe précoce de corruption de données dans le système matériel ou de fichiers.

  • Désoptimisation. Ce travail annule la déduplication sur tous les fichiers optimisés du volume. Certains des scénarios courants pour l’utilisation de ce type de tâche incluent le déclassement d’un serveur avec des volumes activés pour la déduplication des données, les problèmes de dépannage avec les données déduliquées ou la migration de données vers un autre système qui ne prend pas en charge la déduplication des données. Avant de démarrer ce travail, vous devez utiliser la cmdlet PowerShell Disable-DedupVolume pour désactiver d’autres activités de déduplication de données sur un ou plusieurs volumes. Après avoir désactivé la déduplication des données, le volume reste dans l’état dédupliqué et les données dédupliquées existantes restent accessibles ; toutefois, le serveur cesse d’exécuter des tâches d’optimisation pour le volume, et il ne dédulique pas les nouvelles données. Par la suite, vous utiliseriez le travail de non-optimisation pour annuler les données dédupliquéesexistantes sur un volume. À la fin d’un travail de déduplication réussi, toutes les métadonnées de déduplication des données sont supprimées du volume.

Remarque : Soyez prudent lors de l’utilisation du travail de désauplation, car toutes les données déduliquées retourneront à la taille logique d’origine du fichier. En tant que tel, vous devez vérifier que le volume a suffisamment d’espace libre pour cette activité, ou vous devez déplacer ou supprimer certaines des données pour permettre au travail de terminer avec succès.

Processus de déduplication des données

Dans Windows Server, la déduplication des données supprime de manière transparente la duplication sans modifier la sémantique d’accès. Lorsque vous activez la déduplication de données sur un volume, un post-processus ou une cible, la déduplication est utilisée pour optimiser les données de fichier sur le volume en effectuant les actions suivantes :

  • Traite les fichiers sur le volume à l’aide de tâches d’optimisation, qui sont des tâches en arrière-plan, exécutés avec une faible priorité sur le serveur.
  • Utilise un algorithme pour segmenter toutes les données de fichier sur le volume en petits morceaux de taille variable qui vont de 32 kilooctets (KO) à 128 Ko.
  • Identifie les morceaux qui ont un ou plusieurs doublons sur le volume.
  • Insère des morceaux dans un magasin de morceaux commun.
  • Remplace tous les morceaux en double par une référence (ou un talon) sur une seule copie du morceau dans le magasin de morceaux.
  • Remplace les fichiers d’origine par un point de réparation, qui contient des références à ses morceaux de données.
    Comprime les morceaux et les organise dans les fichiers conteneurs dans le dossier Informations sur le volume du système.
  • Supprime le flux de données primaires des fichiers.

Le processus de déduplication des données fonctionne à travers des tâches planifiées sur le serveur local, mais vous pouvez exécuter le processus de manière interactive à l’aide de Windows PowerShell.

La déduplication des données n’a pas d’impact sur les performances d’écriture car les données ne sont pas déduliquées pendant l’écriture du fichier. Windows Server utilise la déduplication post-processus, ce qui garantit que le potentiel de déduplication est maximisé. Un autre avantage de ce type de processus de déduplication est que vos serveurs d’applications et ordinateurs clients se déchargent de tout traitement, ce qui signifie moins de stress sur les autres ressources de votre environnement. Il y a toutefois un faible impact sur les performances lors de la lecture des fichiers déduplicés.

Remarque : Les trois principaux types de déduplication des données sont : la déduplication de la source, de la cible (ou post-processus)etla déduplication en ligne (ou en transit).

La déduplication des données peut potentiellement traiter toutes les données d’un volume sélectionné, à l’exception des fichiers de moins de 32 Ko de taille et des fichiers dans des dossiers exclus. Vous devez déterminer soigneusement si un serveur et ses volumes attachés sont des candidats appropriés pour la déduplication avant d’activer la fonctionnalité. Vous devez également envisager de sauvegarder régulièrement des données importantes pendant le processus de déduplication.

Une fois que vous activez un volume pour la déduplication et que les données sont optimisées, le volume contient les éléments suivants :

  • Fichiers non optimisés. Les fichiers non optimisés incluent :
    • Fichiers qui ne répondent pas au paramètre de stratégie de l’âge de fichier sélectionné
    • Fichiers d’état du système
    • Flux de données alternatifs
    • Fichiers chiffrés
    • Fichiers avec attributs étendus
    • Fichiers inférieurs à 32 Ko
    • Autres fichiers de points de réparation
  • Fichiers optimisés. Les fichiers optimisés incluent les fichiers stockés sous forme de points de réparation et qui contiennent des pointeurs vers une carte des morceaux respectifs du magasin de morceaux nécessaires à la restauration du fichier lorsqu’il est demandé.
  • Magasin de morceaux. Il s’agit de l’emplacement des données de fichier optimisées.
  • Espace libre supplémentaire. En raison de l’optimisation des données, les fichiers optimisés et le magasin de morceaux occupent beaucoup moins d’espace qu’avant l’optimisation.

ReFS (ReFS) prend désormais en charge la déduplication des données dans Windows Server 2019. Il comprend un nouveau magasin qui peut contenir jusqu’à dix fois plus de données sur le même volume lors de l’application de la déduplication. REFS prend en charge des volumes allant jusqu’à 64 téraoctets (TB) et dédulique les 4 premiers Ct de chaque fichier. Il utilise un magasin de morceaux de taille variable qui inclut la compression facultative pour maximiser les taux de gains, tandis que l’architecture post-traitement multi-threaded maintient l’impact sur les performances minimal.

Mise en place

Mise en place

deduplication 1

deduplication 6

fsutil file createnew E:\labfiles\Mod02\data\report.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report2.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report3.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report4.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report5.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report6.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report7.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report8.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report9.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report10.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report11.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report12.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report13.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report14.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report15.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report16.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report17.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report18.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report19.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report20.docx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\report.xlsx 2543210987
fsutil file createnew E:\labfiles\Mod02\data\program.exe 2543210987
fsutil file createnew E:\labfiles\Mod02\data\script.cmd 2543210987
fsutil file createnew E:\labfiles\Mod02\data\song1.mp3 2543210987
fsutil file createnew E:\labfiles\Mod02\data\song2.mp3 2543210987
fsutil file createnew E:\labfiles\Mod02\data\song3.mp3 2543210987
fsutil file createnew E:\labfiles\Mod02\data\song4.mp3 2543210987

deduplication 7

deduplication 8

deduplication 9

deduplication 10

deduplication 11

deduplication 12

deduplication 13

deduplication 2

deduplication 3

deduplication 4

deduplication 5

 

Commandes powershell

Commandes powershell

cmdlet Description
Disable-DedupVolume Désactiver la déduplication des données sur un ou plusieurs volumes
Enable-DedupVolume Activer la déduplication des données sur un ou plusieurs volumes
Expand-DedupFile Optimise les fichiers sur leur emplacement d’origine.
Get-DedupJob Affiche les informations d’un travail de déduplication en cours.
Get-DedupMetadata Renvoie les metadatas de déduplication des volumes sur lesquels la déduplication est activée.
Get-DedupSchedule Renvoie les planifications de déduplication définis dans le serveur.
Get-DedupStatus Renvoie les informations de déduplication des volumes sur lesquels la déduplication est activée.
Get-DedupVolume Renvoie les volumes dédupliqués sur lesquels la déduplication est activée.
Measure-DedupFileMetadata Renvoie l’espace potentiel d’un disque.
New-DedupSchedule Créer une planification de déduplication
Remove-DedupSchedule Supprimer une planification de déduplication
Set-DedupSchedule Modifier une planification de déduplication.
Set-DedupVolume Modifier les paramètres de déduplication
Start-DedupJob Démarre une planification de déduplication
Stop-DedupJob Annule une planification de déduplication
Update-DedupStatus Analyse les volumes de manière à mettre à jour la déduplication.

Vous devez être authentifié pour pouvoir laisser des commentaires...

Print Friendly, PDF & Email