ݺߣ

ݺߣShare a Scribd company logo
Experiència ICC en la preservació
de dades digitals.
digitals
..O com no morir en l’intent de guardar-ho tot, per
sempre mes..

Sergi Racero
g
Unitat de Tecnologies de la informació
Gener 2014
2

Índex

1. Dades. Visió Global. Escenari Exponencial.
2. Dades. Experiència general ICC.
3. Preservació a l’ICC. Reptes i oportunitats.

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
3

1. Dades.
1 Dades Visió Global. Escenari Exponencial.
Global
Exponencial

•

2.5 Exabytes es creen diàriament (2.5 Milions de Terabytes). Aquest número es dobla cada
mes..

ESCALA DE BYTES ,KB ,MB,GB,TB,PB,EB,ZB,YB Y XB

•

90% de les dades de tot el món van ser creades als darrers 2 anys
món,
anys.

•

Ens enfrontem a la triple “v” :
1.

Volum

(32Gb

per Smartphone,

8Gb per

USB,

500Gb

per

PC/laptop,

9.57 Zettabytes tot

servidors al 2012..)
2.

Varietat (estructurades, no estructurades, IoT sensors, logs dataset). Gener2014: Google compra Nets !!

3.
3

Velocitat (d’ingesta de procés de transformació d’accés de descarrega visualització )
(d ingesta,
procés,
transformació, d accés,
descarrega, visualització..)

source: http://www.ni.com/newsletter/51649/es/
http://www.businessinsider.com/infographic-how-big-would-all-the-worlds-data-be-2012-8
http://visual.ly/big-data-bigger-opportunities?goback=.gde_4332669_member_276002628#!
//
/
?
332669
2 6002628#

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014

els
4

1. Dades. Visió Global. Escenari Exponencial.

ILM o el desafiament de les dades !!

Només es compleixen 3 dels 4 estats possibles definits per “cucal”: Les dades
neixen, creixen i es reprodueixen ..però no moren ( i d
i
i
d i
ò
(ni desapareixen) !!
i
)

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
5

2.
2 Experiència general ICC
ICC.

Trets Generals :
T t G
l

•

Mes de 30 anys emmagatzemant dades (1982-2014).

•

Migració permanent del suport (evolució del media)
media).

•

Estratificació / Estructuració de les dades, en funció d’una serie de criteris:
- Tipus d’accés, nivells de criticitats.
- Comercialització de les dades (gran volum de dades - HSM. no caben en un disc i recuperació desatesa).
- Organització interna d’usuaris/projectes (cintotecari amb intervenció humana) i Servidors de fitxers.

•

Des de finals de l’any 2004 (primera càmera digital), entrem en un procés de
digitalització general.

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
6

2. E
Experìencia general ICC.
ì
i
l ICC

Objectiu ICC_TI envers l’ILM :
• Definició ILM de l’SNIA :
“[Data Management] The policies, processes, practices, services and tools used to align the business value of
information with the most appropriate and cost-effective infrastructure from the time information is created through
its final disposition.
Information is aligned with business requirements through management policies and service levels associated with
applications, metadata and data.”

• Presencia de l’ILM, en diferents marcs de definició formals de funcions/programes d’actuació de

l’ICC (seguretat de la informació):
“Preservació de les dades digitals de l’ICC. Establiment de les tècniques, metodologies i sistemes adequats per
garantir l'accés, conservació, tractament i difusió de la informació emmagatzemada a l' Institut”

source: http://www.snia.org/education/dictionary/i#information_lifecycle_management

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
7

2. Experìencia general ICC
ICC.

Distribució de les dades a l’ICC (finals 2013)

•

Dades online: 350TB - Storage Array Disk Systems

•

Dades near-online: 421TB (x2)

•

Dades offline: 1108TB (x2) -

- Hierachy Storage System.
Cintotecari ICC (Tape catalogued)

Total Dades ICC 2013: 1,5 Petabytes (+- aproximat).
Total capacitat ocupació d’emmagatezematge (inclou dobles copies i Backup): 4,16 Petabytes

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
8

2. Experiència general ICC

Cicle de vida de les Dades (ILM)

Actives

Menys
actives

Històriques

Disc alt rendiment

Disc “low cost”

Arxiu Online

Storage Tier

Storage Tier

Arxiu

Storage Tier

PRESERVACIÓ DE DADES DIGITALS – TI

Arxiu Offline

Gener 2014
9

2.
2 Experiència general ICC

Evolució del
E l ió d l suport magnètic a l’ICC
t
èti

Migració contant de les dades (aprox. cada 4-5 anys)
Actualment estem al voltant de les 1700 cintes x 2 (700GB ocupació mitja)
En l’actualitat suporten més del 90% de l’informació emmagatzemada (+- 3,81 Petabytes)

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014

!!
10

2.
2 Experiència general ICC

Evolució del creixement de les dades (període 2010 2013)
2010-2013)

•

Any 2010

TOTAL ESPAI EMMAGATZEMATGE ICC 2010 : 2,43 Petabytes

Espai en disc:
Espai en cinta:

•

300 TBs
2304 TBs (Arxivat: 230 TB(x2), Cintotecari: 757 TB(x2), Backup/DR: 330TB)

Any 2013

TOTAL ESPAI EMMAGATZEMATGE ICC 2013 : 4,16 Petabytes (+ 71,1% respecte al 2010)

Espai en disc:

350 TBs (+ 16.6 % creixement)

Espai en cinta:

3810 TBs (+ 65.6 % creixement) (Arxivat: 421TB (x2), Cintotecari: 1108 TBs (x2), Backup/DR: 390TB)

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
11

2.
2 Experiència general ICC

Increment dades emmagatzemades a cinta (període 2010-2013)

1200
1000
800

2010

600

2013

400
200
0
arxivat

cintotecari

backup

-Arxivat + 83% creixement respecte al 2010

-Cintotecari + 46.3% creixement respecte al 2010
-Backup + 18% increment respecte al 2010
30 TBs setmanal (x4 x2 cicles setmanals) + (x 4 cicles mensuals) = Total 390TB any 2013

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
12

3. Preservació a l’ICC. Reptes i oportunitats.
l ICC.

❏

Dades externes. Adequació i adaptació (a l’entorn web i a l’accés a les dades) al moment tecnològic.
❏
❏

Dades que generem vs dades que ens generen: Obtenir informació vàlida per al negoci.

❏

Les dades han de ser “mòbils” (accés permanent, des de qualsevol lloc, amb qualsevol dispositiu i amb varietat de protocols)

❏

Les dades han de ser “socials” (visibilitat, accés, generar serveis/productes, rebre feedback)

❏

❏

Disminuint el temps de resposta i l’accés a l' informació útil, “viva” (HD més barat i més lent que la RAM).

Les dades han de ser/estar al “cloud” (independents de d'infraestructura, del medi físic)

Dades Internes. Definició de metadades que permetin la indexació, cerca i recuperació ràpida de la
informació utilitzant sistemes avançats de fitxers (imatges vs document vs wikiportal)

❏

Protecció de dades ( NoBackup DR Plan : RTO i RPO)
NoBackup,

PRESERVACIÓ DE DADES DIGITALS – TI

Gener 2014
13

Experiència ICC en la
preservació de dades
digitals.

Institut Cartogràfic
g
de Catalunya
Parc de Montjuïc,
E-08038 Barcelona
41º22’12” N, 2º09’20” E (ETRS89)

Preguntes, dubtes, comentaris .. ?

Moltes gràcies.

www.icc.cat
sergi.racero@icc.cat
@icc_cat
@icc cat
icc.cat
Tel. (+34) 93 567 15 00
Fax (+34) 93 567 15 67
(
)

More Related Content

L'experiència de l'ICC en la preservació de dades digitals

  • 1. Experiència ICC en la preservació de dades digitals. digitals ..O com no morir en l’intent de guardar-ho tot, per sempre mes.. Sergi Racero g Unitat de Tecnologies de la informació Gener 2014
  • 2. 2 Índex 1. Dades. Visió Global. Escenari Exponencial. 2. Dades. Experiència general ICC. 3. Preservació a l’ICC. Reptes i oportunitats. PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 3. 3 1. Dades. 1 Dades Visió Global. Escenari Exponencial. Global Exponencial • 2.5 Exabytes es creen diàriament (2.5 Milions de Terabytes). Aquest número es dobla cada mes.. ESCALA DE BYTES ,KB ,MB,GB,TB,PB,EB,ZB,YB Y XB • 90% de les dades de tot el món van ser creades als darrers 2 anys món, anys. • Ens enfrontem a la triple “v” : 1. Volum (32Gb per Smartphone, 8Gb per USB, 500Gb per PC/laptop, 9.57 Zettabytes tot servidors al 2012..) 2. Varietat (estructurades, no estructurades, IoT sensors, logs dataset). Gener2014: Google compra Nets !! 3. 3 Velocitat (d’ingesta de procés de transformació d’accés de descarrega visualització ) (d ingesta, procés, transformació, d accés, descarrega, visualització..) source: http://www.ni.com/newsletter/51649/es/ http://www.businessinsider.com/infographic-how-big-would-all-the-worlds-data-be-2012-8 http://visual.ly/big-data-bigger-opportunities?goback=.gde_4332669_member_276002628#! // / ? 332669 2 6002628# PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014 els
  • 4. 4 1. Dades. Visió Global. Escenari Exponencial. ILM o el desafiament de les dades !! Només es compleixen 3 dels 4 estats possibles definits per “cucal”: Les dades neixen, creixen i es reprodueixen ..però no moren ( i d i i d i ò (ni desapareixen) !! i ) PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 5. 5 2. 2 Experiència general ICC ICC. Trets Generals : T t G l • Mes de 30 anys emmagatzemant dades (1982-2014). • Migració permanent del suport (evolució del media) media). • Estratificació / Estructuració de les dades, en funció d’una serie de criteris: - Tipus d’accés, nivells de criticitats. - Comercialització de les dades (gran volum de dades - HSM. no caben en un disc i recuperació desatesa). - Organització interna d’usuaris/projectes (cintotecari amb intervenció humana) i Servidors de fitxers. • Des de finals de l’any 2004 (primera càmera digital), entrem en un procés de digitalització general. PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 6. 6 2. E Experìencia general ICC. ì i l ICC Objectiu ICC_TI envers l’ILM : • Definició ILM de l’SNIA : “[Data Management] The policies, processes, practices, services and tools used to align the business value of information with the most appropriate and cost-effective infrastructure from the time information is created through its final disposition. Information is aligned with business requirements through management policies and service levels associated with applications, metadata and data.” • Presencia de l’ILM, en diferents marcs de definició formals de funcions/programes d’actuació de l’ICC (seguretat de la informació): “Preservació de les dades digitals de l’ICC. Establiment de les tècniques, metodologies i sistemes adequats per garantir l'accés, conservació, tractament i difusió de la informació emmagatzemada a l' Institut” source: http://www.snia.org/education/dictionary/i#information_lifecycle_management PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 7. 7 2. Experìencia general ICC ICC. Distribució de les dades a l’ICC (finals 2013) • Dades online: 350TB - Storage Array Disk Systems • Dades near-online: 421TB (x2) • Dades offline: 1108TB (x2) - - Hierachy Storage System. Cintotecari ICC (Tape catalogued) Total Dades ICC 2013: 1,5 Petabytes (+- aproximat). Total capacitat ocupació d’emmagatezematge (inclou dobles copies i Backup): 4,16 Petabytes PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 8. 8 2. Experiència general ICC Cicle de vida de les Dades (ILM) Actives Menys actives Històriques Disc alt rendiment Disc “low cost” Arxiu Online Storage Tier Storage Tier Arxiu Storage Tier PRESERVACIÓ DE DADES DIGITALS – TI Arxiu Offline Gener 2014
  • 9. 9 2. 2 Experiència general ICC Evolució del E l ió d l suport magnètic a l’ICC t èti Migració contant de les dades (aprox. cada 4-5 anys) Actualment estem al voltant de les 1700 cintes x 2 (700GB ocupació mitja) En l’actualitat suporten més del 90% de l’informació emmagatzemada (+- 3,81 Petabytes) PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014 !!
  • 10. 10 2. 2 Experiència general ICC Evolució del creixement de les dades (període 2010 2013) 2010-2013) • Any 2010 TOTAL ESPAI EMMAGATZEMATGE ICC 2010 : 2,43 Petabytes Espai en disc: Espai en cinta: • 300 TBs 2304 TBs (Arxivat: 230 TB(x2), Cintotecari: 757 TB(x2), Backup/DR: 330TB) Any 2013 TOTAL ESPAI EMMAGATZEMATGE ICC 2013 : 4,16 Petabytes (+ 71,1% respecte al 2010) Espai en disc: 350 TBs (+ 16.6 % creixement) Espai en cinta: 3810 TBs (+ 65.6 % creixement) (Arxivat: 421TB (x2), Cintotecari: 1108 TBs (x2), Backup/DR: 390TB) PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 11. 11 2. 2 Experiència general ICC Increment dades emmagatzemades a cinta (període 2010-2013) 1200 1000 800 2010 600 2013 400 200 0 arxivat cintotecari backup -Arxivat + 83% creixement respecte al 2010 -Cintotecari + 46.3% creixement respecte al 2010 -Backup + 18% increment respecte al 2010 30 TBs setmanal (x4 x2 cicles setmanals) + (x 4 cicles mensuals) = Total 390TB any 2013 PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 12. 12 3. Preservació a l’ICC. Reptes i oportunitats. l ICC. ❏ Dades externes. Adequació i adaptació (a l’entorn web i a l’accés a les dades) al moment tecnològic. ❏ ❏ Dades que generem vs dades que ens generen: Obtenir informació vàlida per al negoci. ❏ Les dades han de ser “mòbils” (accés permanent, des de qualsevol lloc, amb qualsevol dispositiu i amb varietat de protocols) ❏ Les dades han de ser “socials” (visibilitat, accés, generar serveis/productes, rebre feedback) ❏ ❏ Disminuint el temps de resposta i l’accés a l' informació útil, “viva” (HD més barat i més lent que la RAM). Les dades han de ser/estar al “cloud” (independents de d'infraestructura, del medi físic) Dades Internes. Definició de metadades que permetin la indexació, cerca i recuperació ràpida de la informació utilitzant sistemes avançats de fitxers (imatges vs document vs wikiportal) ❏ Protecció de dades ( NoBackup DR Plan : RTO i RPO) NoBackup, PRESERVACIÓ DE DADES DIGITALS – TI Gener 2014
  • 13. 13 Experiència ICC en la preservació de dades digitals. Institut Cartogràfic g de Catalunya Parc de Montjuïc, E-08038 Barcelona 41º22’12” N, 2º09’20” E (ETRS89) Preguntes, dubtes, comentaris .. ? Moltes gràcies. www.icc.cat sergi.racero@icc.cat @icc_cat @icc cat icc.cat Tel. (+34) 93 567 15 00 Fax (+34) 93 567 15 67 ( )