Časovaná bomba v podobe "starých" dát

04.07.2007 06:42 | vektor

Na BBC sa objavil veľmi pekný článok o problémoch s uchovávaním "starých" dát.

Tu je link: http://news.bbc.co.uk/2/hi/technology/6265976.stm

Pokúsim sa obsah článku zosumarizovať.

Šéfka Národných archívov Veľkej Británie varovala pred časovanou bombou, šéf britského Microsoftu upozornil na hroziaci "digitálny temný vek".

Čo je jadro problému? Ako príklad si vezmime spomínané Národné archívy. Okrem toho, že ukladajú záznamy z posledných 900 rokov, majú 580TB dát v už nepoužívaných formátoch. Ako je všeobecne známe, proprietárne formáty istých spoločností nie sú čitateľné nielen v inom programe, ale dokonca ani v nasledujúcej verzii toho istého programu. Ako starý software prestáva na nových operačných systémoch pracovať, strácajú sa aj dáta v ňom uložené. Jediným riešením je často virtualizácia, čo však, ak sa dáta z uzavretého formátu nedajú migrovať na otvorený formát?

Microsoft, tvorca väčšiny týchto proprietárnych formátov, spravil "krok vpred" zavedením Open XML formátu, namiesto toho, adoptoval už overený Open Document Format. Aby túto situáciu "vyriešil", vydal konvertor medzi oboma formátmi.

Druhá časť problému je v použitých médiách. Zatiaľ, čo záznam na papieri pri vhodnom skladovaní vydrží aj tisíc rokov, 5 rokov starý záznam na diskete neprečíta skoro žiaden moderný počítač. Dáta teda musia byť neustále migrované na nové médium.

Námet na diskusiu: ako by ste ukladanie digitálnych dát (nie na trápnych 5 rokov, ale povedzme na 200, 500, 1000) riešili VY?

    • Re: Časovaná bomba v podobe "starých" dát 05.07.2007 | 12:36
      Avatar lowec   Používateľ

      Riesenim by bolo ukladanie vsetkych dat do plain textu do nejakej databazy a to by malo byt pouzitelne aj o 100,200,.. rokov.

      • Re: Časovaná bomba v podobe "starých" dát 06.07.2007 | 16:33
        Avatar blackhole   Návštevník

        Hehe no tak uz mas databazu a mozes riesit ako a kam ju na tych 100 rokov ulozis :) A na akom PC ju o 100 rokov rozbehas :)

    • Re: Časovaná bomba v podobe "starých" dát 05.07.2007 | 14:33
      Avatar blackhole   Návštevník

      Tak ako to robili naši predchodcovia...
      Pekne malovat rytiny do kamenov v jaskyni!

    • Re: Časovaná bomba v podobe "starých" dát 05.07.2007 | 16:55
      Avatar marvin   Používateľ

      hmm...magneticke media mi pridu aj napriek velkemu pokroku uz zo svojej podstaty dost labilne.. dvdckam zas zverim akurat tak svoju filmovu zbierku aj to s pochybnostami.. zaujimalo by ma ako je to s odolnostou flash pamati. Vygooglil som si nejaky patent ktory tvrdi ze s pouzitim materialu s vhodnymi elektrickymi vlastnostami (bol tam samozrejme detailnejsie popisany) sa da vytvorit pamat na koncepte flash, schopna uchovavat udaje spolahlivo po velmi dlhu dobu (chvilu som sa snazil najst v tom texte nejake presnejsie cisla o dlzke tej doby ale nevyslo). any ideas, niekto kto sa zaujima o flash pamate?
      ------
      Sisters! Brothers! Small Boats Of Fire Are Falling From The Sky.

      ------ Kto je Španielsko?Prečo je Hitler?Kedy je vľavo?
    • Re: Časovaná bomba v podobe "starých" dát 05.07.2007 | 17:36
      Avatar catcher   Používateľ

      Dobre aj ked drahe riesenie by bolo pouzit diskove polia s mirrorovanymi diskami. Ak jeden odide, vymeni sa a ide dalej. Ak uz taky disk nevieme zohnat, presunieme data z druhej polovice mirroru na modernejsie diskove pole a uvolneny disk zmirrorujeme s inym rovnakym, ktoremu uz kamarat tiez odisiel do vecnych lovist. Ked nam umru vsetky disky na starom poli, budeme mat uz vsetky data na novom + priblizne polovicu volneho miesta, lebo disky su stale vacsie a vacsie. V pripade, ze mame data vo formate, ktory uz je zastarany, konvertujeme, kym je cas. CD/DVD/cokolvek, co pride potom na rovnakom principe je onicom. Je to vyvinute na filmy, ktore pozrieme 5 krat a potom nas vobec netrapi, ze cast dat stratime... Aktivne diskove polia su najlepsim riesenim, aj ked aj najdrahsim...

      • Re: Časovaná bomba v podobe "starých" dát 05.07.2007 | 19:41
        Avatar marvin   Používateľ

        a co povodne,poziare a ine zivelne pohromy vacsieho charakteru? aktivne diskove polia potrebuju elektrinu,chladenie... a nepride mi to az tak zmysluplne nechat tie disky bezat roky prakticky zbytocne (aspon tak som pochopil slovo aktivne) a zase zavriet ich vsetky do trezoru niekam by vyzadovalo pravidelne ich rozbehnut a skontrolovat..co zase asi cas od casu bude treba spravit s kazdym mediom..ale ak sa bavime o zariadeni ktore ma vydrzat velmi dlho bez nutnosti prenasat obrovske mnozstva dat na nove storage systemy (o 50, 100 rokov budu harddisky a podobne technologie imho predsa len zabudnuta technologia) tak mi to nepride ako velmi dobry napad.
        ------
        Sisters! Brothers! Small Boats Of Fire Are Falling From The Sky.

        ------ Kto je Španielsko?Prečo je Hitler?Kedy je vľavo?
      • Re: Časovaná bomba v podobe "starých" dát 07.07.2007 | 12:52
        Avatar blackhole   Návštevník

        > Aktivne diskove polia su najlepsim riesenim, aj ked aj najdrahsim

        myslim ze to nie je celkom pravda. predstav si situaciu, ked mas diskove pole (raid1,5,10,...) a odide ti v nom elektronika. V praxi som taketo pripady bohuzial uz zazil a vysledok bol ten, ze radic posahal data pri zapise na vsetkych diskoch tak, ze uz nebolo mozne ich zrekonstruovat. V pripade HW problemov (pripadne aj SW keby islo o SW-raid - viry, vadne implementacie, a pod.) nemozes ocakavat od raid-u ze data ktore tam zapises aj spolahlivo precitas. Musel by si vytvorit zalozne riesenia, znizit redundanciou pravdepodobnost takychto vypadkov a tym by si predrazil cele riesenie.

        Co sa tyka ceny raidov, tie uz nie su v dnesnej dobe az take kriticke, ale ako som pisal - neodporucam toto riesenie.

        Skor by som ratal s magnetickymi mediami, ktorych zivotnost je podstatne dlhsia ako pri beznych harddiskoch. Napr. LTO-pasky maju podla vyrobcu zivotnost do 30 rokov. S tym sa uz da co to poriesit. Samotne media nestoja az tak vela, najdrahsie vyjde prave LTO-mechanika. Napr. LTO-3 mechanika stoji ca. 2500 EUR, media do nej 400GB (800GB komprimovane) ca. 50 EUR. Rychlost zapisu ca. 70 MB/s (nekomprimovane).

    • Re: Časovaná bomba v podobe "starých" dát 06.07.2007 | 12:59
      Avatar Emkei   Používateľ

      na zminovane archivovani se to sice nehodi, ale pro ty, kteri neveri klasickym CD-ROM a DVD mediim, existuji specialni disky od EMTECu s zivotnosti az 100 let, ktere se navic cenove prilis nelisi od klasickych medii.

    • Re: Časovaná bomba v podobe "starých" dát 07.07.2007 | 23:36
      Avatar k0fein   Používateľ

      No imho pouzivat papier :) Ale vazne, podla clanku im vadi viac proprietarnych format ako to ze to nemaju kam ulozit. Takze za prve - zbavme sa proprietarnych formatov. Microsoft tu hovori o dobe temna no ta zacala ked prisiel Windows. A ked si sekretarky zacali mysliet ze vediet pouzivat pocitac znamena vediet napisat text vo worde.
      Co sa tyka riesenia ulozenia. Papier vraj vydrzi 5000 rokov, tak preco nespojit prijemne s uzitocnym ? Prvych 'n' papierov pouzit na vysvetlenie formatu a zvysok - DIERNE STITKY! A mam papier aj informaciu ktora sa da spracovat. Alebo pouzit specialne znaky vytlacene na papier pripadne vyryte do nejakej dosky z vhodneho tvrdeho materialu a napr laserom citane dosky - nieco ako CD ale vacsie a s podstatne mensou hustotou zapisu. Ak sa to vyryje dostatocne hlboko tak to moze aj prachom zapadnut a viac menej sa to moze aj rozpadnut (ale nie na prah). Nieco ako sumerske klinove pismo. Odhadom mozno dostat ze ked na dosku povedzme 1/2 m x 1m pouzijete "font" o velkosti 1cmx1cm mate 5000 znakov na dosku (z jednej strany) a 5000 z druhej to je 10 000 znakov na dosku. 580TB (ak ide len o znaky a hruby prepocet) to je cca 5.10^14 znakov
      deleno 10^4 per doska to da 5.10^10 dosiek ak ma kazda hrubku povedzme 1 cm tak to mate objem 50 cm x 100 cm x 5.10^10 cm = 25.10^13 cm kubickeho to je priblizne 10^14 cm^3 = 0.1 km^3 takze taka mensia hora :100 x 100 x 100 metrov :-) ale splni svoj ucel (ak som sa nesekol co som sa asi sekol)

      major_kusanagi
      /* no comment */

      major_kusanagi /* no comment */
    • Re: Časovaná bomba v podobe "starých" dát 10.07.2007 | 22:21
      Avatar blackhole   Návštevník

      Hlavni problem je vubec schopnost jakkoliv ucinne uchovana data precist. Rekneme ze nekdo prijde s mediem, ktere bude schopne uchovat data treba po 100-200 let. Ted je zde ale otazka, jestli budou schopni ony data precist. Jak si interpretuji znaky 1/0, na nich ulozena. Myslim si, pokud by jsme chteli predat znalosti a informace dalsim generacim, tak tu neni jen problem o jejich uchovani. Bylo tu jiz psano, par stranek manual a pak moooooooc dernych stitku. Jednodussi reseni by bylo spojeni se zarizenim, ktere by bylo na principu "zapni a jed". Velmi zjednodusene cerna skrinka, ktera ma par cudliku a z ni dolujes data. Nahodila osoba by byla schopna data vydolovat, s tim ze zarizeni by bylo na obsluhu tak jednoduche, ze by proste nemohl data vymazat ci jinak poskodit. Profik by zase byl schopny "naucit" se spravne cist data dle FUNGUJICI predlohy.

      Proto pocitac v poradne ocelove krabici, ktera by byla "blbuvzdorna", mala elektrarnicka (benzin asi nebude, ale slunicko jo) + obrazky ("blbuvzdorne reseni"). A to vse zavrit do trezoru s casovym spinacem, ktery je otevre za 100 let xDDD

      • Re: Časovaná bomba v podobe "starých" dát 11.07.2007 | 06:40
        Avatar k0fein   Používateľ

        To je sice pekne, ale podla mna len presuvas problem precitania dat a neriesis ho.

        Lebo: Ked zostrojis masinku, ktora ti bude fungovat a posere sa tak ma prist manik ktory ju vie opravit. Cize zas len musi niekdo nieco spravit. Len tentokrat to nie je naklepat kod co precita format ale zobrat kladivo a klince. Takze tak ci tak sme sa asi dostali do urovne isteho minima kde tak ci tak musi prist clovek a musi aspon nieco urobit aby myslienku ukrytu v datach dostal von.

        Navyse si nenavrhol formu uschovi dat ale len ich citania.

        major_kusanagi
        /* no comment */

        major_kusanagi /* no comment */
    • Re: Časovaná bomba v podobe "starých" dát 11.07.2007 | 09:37
      Avatar blackhole_ventYl   Používateľ

      som sa az zhrozil, ked som si uvedomil, ze ludstvo dokazalo rozlustit tisice rokov staru rosetsku dosku (tak sa to pise, nie?), porozumiet jazykom davno zabudnutym, ziskat ich vedomosti zaznamenane pismom, ale ked niekde vyhrabem disketu s dokumentom, ktory som na nu ulozil v roku 1998 v office 97, moje sance na uspesne precitanie toho dokumentu su limitne blizke nule, v lepsom pripade ho nacitam rozbity.

      formaty zalozene na XML vyzeraju byt (z dnesneho pohladu) vcelku vhodne na ulozenie dat (predne sa jedna o textove a strukturovane data), pretoze su self-describing, tzn. ak sa na taky dokument pozrie clovek s IQ vyssim, ako je stredna doba kontrakcie dazdovky v sekundach, relativne rychlo pochopi, wocogo. Navyse allah dal XSLT, takze sme schopni konvertovat pri relativne malej snahe dokument z jedneho self-describing formatu do druheho self-describing formatu, v idealnom pripade z formatu, ktory je self-describing do formatu, ktory je viac self-describing. To s-d je tu velka vyhoda, pretoze v pripade datoveho formatu staci vediet, ako XML funguje, na zvysok si pripadny zaujemca prijde sam (az ho to bude ovsem zaujimat).

      to je ale len jedna strana veci. Tieto XML streamy treba aj nejako niekam ulozit. tu by mohli pomoct rozne sci-fi filmy a vedci z projektu voyager. ti na zlatu dosku zakodovali pomerne dost vela informacii v dobrej voli, ze ich niekto bude schopny precitat. tzn. 1. treba ekvivalent rosetskej dosky, ktory povie, ako z digitalneho streamu dostat XML stream.

      a po 2. treba tento stream niekam ulozit. a tuna by som povedal, ze by sa ako najlepsie voditko javil Torvaldsov vyrok:

      "Only noobs do backup their data. Real men upload important data on ftp and let other to mirror it."

      ---
      Cuchat s nadchou, to je ako sniffovat bez promiscu.

      --- Cuchat s nadchou, to je ako sniffovat bez promiscu.
      • Re: Časovaná bomba v podobe "starých" dát 15.11.2007 | 18:02
        Avatar wradgio   Používateľ

        Myslienka self-describing formatu ma aj moje sympatie a dviham zan ruku. Rad pouzivam XML a myslim, ze je to skvely format pre uchovanie starych dat a zabezpecenie dat do buducnosti.

        Problemom je podla mna skor samotna vecna roznorodost a evolucia. Aj ked by sme dokazali popisat ako vyrobit a sfunkcnit XML parser, nastava problem ako tuto informaciu univerzalne sprostredkovat.
        Dostal som sa ku knihe starej 100 rokov, no nevedel som ju precitat. Bola pisana jazykom ktoremu nerozumiem a ktory by dnes vedel be problemom citat malokto (stara nemcina), znakmi z ktorych sa dnes uz niektore pisu inak (tzv. svabka). Jedina informacia, ktoru som dokazal ciastocne vstrebat, boli obrazky.

        Jedna zo zakladnych otazok je, pre koho by mali byt vlastne data urcene a ako ich preniest casom a zmenami. Aj keby sme data ulozili na nadcasovy nosic, do bezchybneho systemu a myslienkami by sa nam podarilo vyriesit problem s interpretaciou obsahu, mozno by dokonaly system narazili na uplne dokonaleho debila :) a vsetko by bolo marne.

        Podla mna su jedinym, ako tak bezpecnym riesenim "vecneho zivota informacii" prave samotne entity, ktore ich pouzivaju. Informacie su nieco, o co sa treba starat, je k nim potrebna "aktivna udrzba", prave pre to, aby sa informacie suvisiace s ich interpretaciou dokazali uchovat, aby sa informacie dali prisposobit novym podmienkam (novym jazykom).

        Zoberme si, ako to funguje v prirode, v ktorej entitiy a ich informacie prezili miliardy rokov, tak si jej "know-how" dovolim povazovat za dobry zdroj. Su informacie, ktore je mozne dlhodobo ulozit (povedzme do XML, ci v prirode do DNA).
        A potom su informacie, ktore sa ulozit nedaju, ktore nam sluzia na udrziavanie a interpretaciu ulozitelnych informacii a o ktorych prenos v case sa staraju samotne entity [napr. ako informaciu precitat (XML parser ci mapa DNA), ako pochopit danu informaciu v novych podmienkach (preklad), ako odovzdavat informacie dalej (najvhodnejsi format)].

        Myslim, ze odpoved na otazku "vecneho zivota" informacii mame vokol seba a mozno ju uz nespocet rokov pouzivame a teraz iba zlepsujeme sposoby uchovavania dlhodobo ulozitelnych dat a interpretacie tych kratkodobejsich :).

        ---------------------------------------------------------------- I am a living, thinking entity that was created in the sea of information.
    • ako uchovat data na dlhe veky 25.07.2007 | 13:49
      Avatar blackhole   Návštevník

      Pointa rozlustenia starovekych dat je v kontinuite, napr. aj spominana rosetska doska obsahuje ten isty text v 2 roznych starsich egyptskych pismach a 1 novsom greckom. Ak maju byt dnes zaznamenane data rozlustitelne o 100 rokov, mali by existovat rozne preklady, konvertory a pod. do novsich a novsich formatov.

    • tip na 100rocny archiv 26.04.2008 | 16:11
      Avatar marvin   Používateľ

      http://www.theregister.co.uk/2008/04/25/santa_cruz_pergamum_tomes/
      ------
      Kto je Španielsko?Prečo je Hitler?Kedy je vľavo?

      ------ Kto je Španielsko?Prečo je Hitler?Kedy je vľavo?
    • Re: Časovaná bomba v podobe "starých" dát 28.05.2009 | 15:45
      Avatar vid   Používateľ

      Co sa tyka HW stranky dlhodobeho uchovavania dat, toto vyzera zaujimavo:

      http://www.osel.cz/index.php?clanek=4425