「理学データベースの構築促進と体制の整備に向けて」

第1章 理学各分野におけるデータベースの歴史と現状

1-6 宇宙科学分野

宇宙科学・天文学は他の博物学的な起源を持つ科学と同様に,非常に古い起源を持つ.星座の星の名前とその正当性を裏付けるための神話に始まり,農耕や統治の有りようと密接に関連しながら発達してきた.この古い時代からの蓄積は,例えば,現在かに星雲として知られる超新星残骸の爆発の瞬間が平安時代の藤原定家の「名月記」の記載で同定されたことでも分かるように,非常に重要なものである.

近代科学としての形をそなえるにしたがい,天体は光の強さ,形,色,変動の有無などにより,様々な見地から命名・分類がなされてきた.これらの「天体カタログ」は,一つの見地からの命名・分類・出版のたびに作られるので,観測手段が可視光から電波,X線,赤外線など電磁波のあらゆる領域をカバーしようとしている現在,「カタログ」数はどんどん増え続けている.そのため,一つの天体が多数の呼ばれ方をすることが多い.また,観測波長・手段により位置測定精度がバラバラであり,また我々からの距離に不確定さがあるため,ある波長で観測された天体が他の波長で観測された天体と同一であるかどうか(同定)が未確定であるものも多い.

写真乾板で像を記録できるようになってから,上記の「カタログ」というデータ流通形態に加えて,乾板のコピーの配布という流通形態が加わり,さらにCCDなど電子的手段による検出が可能になることで流通形態も電子的になって20年ほどが経過した.

今後10年位でデータ総量は,前者の「カタログ」は数Gbyte程度,後者の「画像」は網羅的なサーベイが数十Tbyte程度,網羅的ではない観測データが数Pbyte程度に及ぶであろう.このデータ量そのものは,百億円以上する望遠鏡,数百億円の人工衛星の値段に比べれば,恐れるに足らない.また,ハードウェア的な必要処理能力も,同様である.すなわちペタ画素についてその回りの十キロ画素との関係を10個の演算で一年以内(10の7乗秒)に処理するとしても,「地球シミュレータ」並みの10 TFLOPS 有ればよい.

すなわちハードウェア的には望遠鏡に見合う相応な投資を行えば処理可能であることは分かっている.しかし,有用な情報を引き出すためのソフトの開発のための人的投資についてははなはだ心許ない状態にある.例えば,前述の多波長にわたる同定の問題,また,検出素子の傷や,宇宙線(宇宙からの放射線)などによる偽の情報を排除していかに天体を検出するかの問題など,未だ解決されていない問題をソフトウェアで解決しなくてはならないのに,日本全国をあわせても,これに当たれる常勤人員は十人程度しかいない.

ハードウェア投資については,日本が計算機ハードウェア産業では一定の優位を持っていたこともあり,予算面での宇宙科学・天文学への理解は充分とは言えないがある程度得られてきた.しかし,日本の優位な面を生かすために必要な,ソフト面,人員面での配慮は全く充分とは言えない状況である.そのため,日本が打ち上げた衛星でも,最初にデータに系統的にさわれる一番おいしい(=科学的成果を得やすい)ところを米国NASAに委託しなければならないような状況が続いてきた. 大学院生やポスドクの若い人たちはこれらの仕事のおもしろさ,実り多さを十分に理解し,科技庁のJSTによる援助などでこれに当たるポスドクは常勤人員の倍以上ある.このエネルギーを雲散霧消させないため,常勤ポストを増やすことは焦眉の急である.
上記の例でも分かるように,天文学においては数十年,時には数百年の間を隔てた観測データを比較する必要が生ずる.したがってアーカイブデータは極めて長期間に渡って安定に保存され,必要時にはいつでもアクセスできることが要求される.
一方,最近地上望遠鏡でも国立天文台の「すばる」のように大型化してきたし,また,宇宙科学研究所の天文衛星も大型化しかつテレメトリー伝送速度も格段に高速化してきた.その結果,各衛星,天文台はそれぞれ年間数 Tera Bytesから数10 Tera Bytes の大容量の観測データを蓄積するようになってきた.
国立天文台や宇宙科学研究所のような大型の研究所でもこのようなペースで蓄積されるデータをアーカイブデータとして長期間に渡り安定に,常時使用可能な状態で保存し,かつ一般公開サービスを続けることは容易でない.
特にレンタル大型計算機のリプレースに合わせて大容量記憶媒体およびその駆動読みとり装置が交換される現状を考えると,今後はアーカイブデータの媒体間移行作業一つ考えても破綻を来すおそれがある.今後,このような問題点を考慮の上,アーカイブデータの長期保存と長期サービスの手法を確立しなければならない.

天文・宇宙科学のアーカイブデータの公開においても,今後は従来のように集約されたカタログデータのみを公開すれば済む時代ではなくなった.これからの研究手法として電波,赤外線,可視光,X線,γ線に渡る多波長データの同時解析が1つの主力になると考えられる.これを真に有効ならしめるためには,刻々変化する画像データを,あるいは極言すれば観測された1photon 毎に 波長(あるいはエネルギー),到来方向,到達時間の情報を付加した全測定 photons のデータをアーカイブデータとして公表して始めて上記のようなダイナミックな解析が可能となる.これを可能にするためには各天文台,衛星受信センター毎に付加情報も含めて膨大なデータ量を蓄積,編集,管理,公開していかなければならない.そして,これらの多波長データの同時解析を有効に行なうためにはデータセンター間およびデータセンターとユーザー機関が高速のネットワークで接続されねばならない.

最近とみにデータ公開の原則が言われ,ことに国立機関における研究実験・観測データの即時的な公開が叫ばれている.しかし,生のデータを放出することには大した価値はない.データは良く集約され,較正されており,またその解析ツール支援が行き届いて始めてこれを利用する一般研究者が誤った結果を導くことなく,新しい成果を導出できる.しかし,このように研究者(例えば国立機関,公立機関の公務員)の手がかかった知的財産の所有権をどう考えるか,それは国有財産か,製作者個人に権利があるか,あるいは社会的公共資産として国民全体が共有するか,このような科学実験・観測データのアーカイブデータとしての知的資産に関する法的整備も必要であろう.上記のような作業は,高度に知的作業であるが,それ自身は科学的成果を生むものでなく,そのアーカイブデータを利用して科学的成果を出したユーザーが報いられることになる.正しく,使い安いアーカイブデータを構築する研究者の創意工夫が報いられる評価システムが必要となるであろう.
上記の研究者向けアーカイブデータの構築・公開とは別に,国民全体に発信されるべきデータは(「ひまわり」の天気図のように誰が見ても一定の知見,予測ができ,それ自身が役立つデータや「ようこう」や「すばる」の太陽X線像や天体写真のようにそれ自身が皆に宇宙へのロマンを与えるようなものは別として)それが十分解釈され,誰にも分かる言葉,あるいは図に変換されたもの でなければ意味がない.納税者としての国民,市民全体への義務としてデータ公開ならばそのような啓蒙的,教育的配慮が必要であろう.それには優れた研究者(あるいは特殊技能者)の努力が必要であろう. 上記の研究者向け公開と国民全体への発信を実効ある形で実現していくには情報処理科学者の数が圧倒的に不足している.また,それぞれのデータをアーカイブ化し,これを容易にかつ誤りなく利用していくには,その分野の専門知識を持って科学者が関与する必要がある.研究者がこのようなサービスにも時間を割くためには,研究者の総数にも余裕がなければならない.

最近のハッカーによる各研究機関への不正侵入は,各研究機関をして Firewall を入口に設置して外部からのネットワークアクセスの制限を加える方向に向かわせている.このことと,誰もが自由に各データセンターにアクセスしてデータの検索・転送を行なうこととは相矛盾した側面がある.今後,セキュリティーは高く,利用は自由なネットワークシステムを開発していく必要がある.

最後に,これは本書の趣旨にもとるかもしれないが,今後遠からず,”いかに多くのデータを蓄積,管理していくか”ではなく ”いかに効率良く無駄なデータを廃棄していくか”が重要なテーマになるかも知れない.生物にとって,忘却無しには効率よい記憶はあり得ないように.