Publicado hace 11 años por stigmata a guardofcastle.blogspot.com

El término deduplicación no es nuevo pero tampoco es muy conocido. Es una tecnología que dará que hablar en un futuro no muy lejano. La deduplicación es una característica que implementa Windows Server 2012 y Windows Server 8, aunque ya se viene implementando en software de backup

Comentarios

kikuyo

¿Han descubierto los hard links?

s

#1 Sí, ya se conocen los enlaces duros y simbolicos de linux pero esto es windows y es algo trasparente para el usuario.

Dikastis

#2 Y siguen con NTFS?

s

#3 Yo no soy defensor de windows pero entiendo que la deduplicación es una técnológia bastante interesante y que dará que hablar. Si en un futuro lo implementa linux en su sistema de archivos de forma trasparente pues perfecto.

D

#5 ganas en espacio lo que pierdes en velocidad de proceso. Mientras el almacenamiento sea barato, yo la desactivaría.

s

#3 conozco rsync que implementa la opción de backup con enlaces simbólicos pero que yo sepa no hay en linux nigún sistema de ficheros que lo haga automaticamente, corrígeme si me equivoco.

albandy

#7 Lessfs

D

#2 En linux también son transparentes

D

#1 A lo mejor no estoy actualizado ¿pero qué tiene que ver esto con los hard links?

D

#6 Un hard link no es ni más ni menos que lo que explican ahí. Un archivo no es borrado hasta que su número de hardlinks es 0.

Eso es la deduplicación.

Un hardlink es el mismo archivo en otro sitio sin ocupar espacio extra. Como siempre microsoft reinventando la rueda.

Ejemplo: Tienes /opt/mifichero_de_claves y haces un enlace duro a /home/miusuario/mificherodeclavescifrada

El valor del campo númerodelinks es 2, puedes borrar el que quieras de los dos que hasta que no borres los dos el archivo no es borrado.

D

#8 Bueno, según la noticia es además que el sistema operativo busca los duplicados y crea los hardlinks. Y no a nivel de archivo, sino de unidad de almacenamiento (sector?) de 4 k.

D

#8 Lo que me imagina, o no has leido el artículo o simplemente es el típico caso de meterme con Windows por que mola.

D

#15 Repito, ¿en qué va más allá?

Añade a ésto una tubería más con ln y otra con el rm:

find . -type f -print0 | xargs -0 -I "" sh -c 'md5sum ""' | uniq -w32 --all-repeated=separate

m

#6 no, no es eso. Estas en lo cierto, no tienen nada que ver, pero bueno...parece que son felices

D

#9 No, sólo incluso copian el tamaño de bloque 4kb.

Tu deduplicación es una conjunción de: find, md5sum, ln y rm. Ni más ni menos.

m

Claro, netapp, emc, storagetek lo tienen hace bastante tiempo, puedes encontrar informacion en sus webs. Ademas, trabajando como trabajas con linux seguro que conoces ZFS, de la tristemente desaparecida SUN. Creo que se porto a Linux pero no estoy seguro. Con ZFS puedes tener y probar deduplicacion, aunque creo que el consumo de ram no lo debe hacer muy atractivo.

De todos modos, aqui tienes un enlace: http://www.netapp.com/es/communities/tech-ontap/es-tot-bb-depublication.aspx

Saludos

chumifu

Si que recuerdos con la deduplicación de Netapp... una maravilla ver las cpus de las cabinas locas locas locaaaaasss

m

Hombre, es otro concepto.

Que ocurre con un hard link cuando quiero modificar una de las "copias"? Que tengo que crear otro fichero. En la deduplicacion, solo se crean los bytes o bloques modificados, dependiendo del metodo que elijas, el resto del fichero sigue siendo comun y por lo tanto ahora tengo dos ficheros "distintos" ocupando un % menos de espacio igual a las partes en comun del fichero.

Mas aun, la deduplicacion no entiende de ficheros, ya que ficheros diferentes pueden compartir datos.

Ahora viene la parte en como haces esto con md5sum, ln, rm y find...

Saludos

D

#17 ¿Puedes dar una referencia que de información de eso que afirmas?

PD: ten en cuenta que un fichero menor de 4kb usa 4kb sólo para él.

D

Entonces, si se jode un bloque de 4K a partir de usar eso ¿se te joden todos los archivos que enlazan con ese bloque?

m

La deduplicacion hace tiempo que vas mas alla del concepto de "hard link".

Hombre...si quieres llevarte la perra gorda, pues si, "Tu deduplicación es una conjunción de: find, md5sum, ln y rm. Ni más ni menos." Y tu sistema de archivo no es mas que una conjuncion de carpetitas de colores, armarios y cajones del despacho de perico, ni mas ni menos.

Saludos

D

#13 ¿En base a qué va más allá?

D