2013-05-31

真に正しいデジタルデータの保存方法

デジタルデータを数十年、百年と保管するにはどうすればいいのか。

まずは記録媒体を考える。

まずやってはいけないのは、CD-RやDVD-RやBD-Rのような、書き込み可能な光学ディスクに記録することだ。これは非常に劣化しやすい。特に、光学ディスクの規格が新しいほど、耐久性は低下している。BDなどは、表面の僅かな擦り傷だけで読めなくなる、長期記録媒体としては最悪のシロモノである。

プレスしたCD-ROMならば、ある程度の耐久性はあるかもしれない。CD-ROMのプレスは非常に高度な製造技術のため、一般人には手が出せない、というのは冗談で、海外業者に頼めば数万円からプレスしてくれる。しかも数百枚プレスしてくれるので、リスク回避のためにできるだけ多くの箇所に分散して保存することができる。ただし、プレス業者の質に注意しなければならない。

HDDはもってのほかである。HDDは消耗品と考えるべきだ。USBメモリーやSSDのようなフラッシュメモリーは論外だ。こいつらは放置するだけで勝手に消える。

テープは古典的だが、いまでもなお信頼性の高い記録媒体である。ただし、テープ自体は安価なのだが、その読み取り装置が高い。しかも、現代における記録媒体としてのテープは大規模なデータ向けなので、個人ではちょっと手が出せない。

このように、記録媒体自体は劣化して、いずれ読めなくなる。そのため、記録媒体をそのまま保存するならば、劣化しにくい記録媒体を選ばなければならない。プレスしたCD-ROMやテープが、とりあえずは30年ぐらいは保存できると考えていいだろう。そう、たったの30年だ。それ以上を望んではいけない。「保存状態を工夫すれば」などという考えはしてはいけない。30年保存して100個の記録媒体のうちひとつでも劣化して読み込めなくなれば、もはやそんな保存方法では安心できない。

30年。30年。30年。

30年こそが記録媒体をそのまま保管して保存できる限界ギリギリの年数であり、保管できる記録媒体の耐久年数は30年である。

しかも、長期保存できる記録媒体を注意深く選んで、保管場所の環境も注意深く維持しての考慮しての限界ギリギリの年数が、30年だ。

記録媒体もさることながら、もっと重大な問題がある。読み取り装置が30年後も存在するかどうかという深刻な問題だ。

記録媒体は30年劣化しなかったとしても、現代の読み取り装置やその互換品が、30年後もそのまま製造されている保証はない。たとえば、30年前のコンピューターで主に使われていたテープの読み取り装置は、もはや当時の読み取り装置で現存して実働するものを探し出すしかない。もはや、そんなものを製造する商業的理由がないからだ。

したがって、30年後にCDドライブが存在するかどうか、そのへんは非常に怪しい。CDほど有名な記録媒体がと言うなかれ。すでに、光学ディスクドライブは、多くの一般消費者向けのPCからは取り除かれつつある。一般に必要とされないような装置は、もはや製造するだけの商業的価値がなく、製造されない。製造されなくなれば、もはや失われた技術と化す。

したがって、私は30年後にCDドライブが製造されていないという予言をしようと思う。私の予言が的中する確率はかなり高いと思っている。

HDDやSSDを接続する、IDEやSATAといった接続端子などは、もっと信頼できない。今のIDEやSATAは30年後には確実に使えなくなっていると予言する。

最新のテープの読み取り装置は、30年後も存続しているかもしれない。あるいは、提供者が今後何年サポートするという契約を付随させているかもしれない。ただしすでに述べたように、これは大規模な業者向けであり、個人で使うには様々な理由で難しい。

では、30年を超えてデジタルデータを保存するにはどうすればいいのか。方法は一つしかない。

多数の記録媒体の集合で構成され、また個々の記録媒体は任意に追加、交換されるクラスター上に、絶え間なく自動でデータを複数の記録媒体に重複してコピーし続けて冗長性を確保するシステム上に保存することだ。

このシステムならば、記録媒体は数年で劣化するものでもかまわない。絶えず記録媒体の追加交換を続けて、システムが稼働する限り、データは安全である。

もちろん、個人では難しいが、企業や団体ならば可能となるし、このようなシステム上にデータを保存するサービスを提供しているところも多数ある。ほとんどのオンラインストレージ系のサービスはこのような形になっている。個人でどうしても長期保存したいというのであれば、自前での保存もした上で、このようなシステムを使ったサービスを使うべきだ。ただし、一箇所ではダメだ。このようなサービスは現れては消えと興隆が激しいため、その時々で主流のものを複数、できるだけ多く利用するべきだ。

デジタルデータの保存活動をしている団体もある。

たとえば、インターネットを保存する目的で活動を続けているInternet Archiveがある。

Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine

また、ネットワーク初期のBBSのログを保存し、それとどんなフロッピーディスクでも保存するから送っておくれと宣言しているWebサイトもある。

T E X T F I L E S D O T C O M

Floppy Disks: It’s Too Late « ASCII by Jason Scott

明らかに、この人物は貴重な当時のデジタルデータの保存を愛してる。どのくらい愛しているかというと、このくらい愛している。

UH OH JASON FOUND THE ARRAY | Flickr - Photo Sharing!

ただし、フロッピーディスクの寿命はたかだか30年ぐらいなので、もう時間切れだそうだ。今ある当時のフロッピーディスクの大半は読み込めない。

もしどうしても長期保存したいデジタルデータが公開できる性質のものであれば、複製、保存しやすい形で公開して、他人も保存できる環境を整えるべきだろう。世の中には物好きがいて、ひょっとしたら保存してくれるかもしれない。より多く複製されるということは、より多くの箇所で保存され、そして将来、発掘される可能性が高まる。

このために、DRM(デジタル制限管理)のような保存のための複製を阻害するような機能は根本的な欠陥であり、存在自体が人道上の罪であり、決して許してはならない。

2 comments:

Anonymous said...

ひとつの媒体に刻めば保存完了という思考は、アナログ時代の産物だと思っています。
常に複数の媒体で保持し、サイレントクラッシュを気にしながら移し替えていくのが求められる姿ではありませんかね。

Anonymous said...

30年後までには今で云う所のOCRのような技術が発達することを祈って
base64なりhexdumpなりを用いてエンコードした結果をpsなりpdfなりに適切に変換してプリントアウトしたものを複数箇所に保管しておく、という方法はどうでしょう。

インクにも気を使う必要はありますが、紙なら30年は余裕でもつので。