「理学データベースの構築促進と体制の整備に向けて」

資料3_2

(2) 地球物理学データ処理体制の整備  第16期学術会議地球物理学研究連絡委員会


1.はじめに
 我々人類の生存基盤である地球の環境がかつてない危機に見舞われていることは、多くの研究によって指摘されている通りであり、地球環境が過去から現在に至るまでどのような変遷を遂げたのかを知り、今後どのように推移していくのかを予測することは、人類の生存にとって極めて重要である。このような研究のためには、地球環境データの蓄積と利用が有効に行える研究環境を整備することが緊急の課題であるが、 これに関する日本の体制は極めて不十分と言わざるを得ない。このような観点から、日本学術会議地球物理学研究連絡委員会では、日本の地球物理データ処理体制についての検討を行った。以下は、その報告である。

2.地球物理学における「データ解析」とデータの重要性
 地球物理学の分野では,「観測(実験)」と「理論」の間で実施される「データ解析」がとりわけ重要な意味を持っている.これは,物理学や化学の実験が,実験室内の整えられた環境下で再現可能な普遍的現象を人為的に発生させて研究するのに対し,地球物理学は,地球とその周辺空間という広大な領域で,46億年におよぶ進化の過程で起こる予測困難で厳密な意味では再現しない現象の集積を研究対象とすることによる.この場合,目的とする現象の発生時刻と場所を予め知る事は出来ないから,出来るだけ多くの点での連続観測が必要になる.得られたデータは,予期しない現象を記録している事もあり,また,長いタイムスケールで変化する進化の過程の記録でもあるので,後の研究に使うため,原則としてすべて保存されなければならない.研究者は,過去から現在までに多くの人達によって蓄積されたデータを使って自分のアイデアを確かめるのであり,これが,「データ解析」という特有の手法が存在する理由である.  近代的観測が始まって約100年にしかならず,また,観測の精密化と観測領域の拡大が,ごく最近になって進み始めたこと,さらに新しい観測が追加されつつあることを考えると,地球環境を理解するのに必要なデータの蓄積は始まったばかりであると言える.この意味で,可能な限りのデータを収集保存し人類共通の財産として残すことが極めて重要である.

3.地球物理学のデ−タの特徴
 地球物理学のデータは,ほとんどの場合,時間と空間の関数になっている.地球物理学の時系列データは,地震のような短時間の突発的現象の研究にも,地球回転,気候変動,地磁気永年変化のような地球の進化にも関係する長期間の現象の解析にも使われる.また,地球物理学現象は,緯度,経度,地方時,高度等に依存するのが普通であり,多くの国,地域からのデータの同時解析によって現象の空間分布を調べることも重要になる。この広範な時空の関数としての地球物理学データの特徴は,文献情報データや物理化学の定数デ−タと対比させるとよく理解できるであろう.  さらに,地球物理デ−タは,自然現象以外にノイズや観測誤差(例えば,温度や観測環境に依存する機器感度の時間変化)を含んでおり,それらの評価・分離は,観測者自身が,測定装置の性能・限界と観測条件を考慮しながら行っていかねばならない.これには,得られたデ−タの時間変化や空間分布を吟味する必要があり,解析結果を見ながらデ−タの評価が固まっていくという特徴がある.評価の済まないデータを公表するとそのデータの限界を超えて誤って使われる可能性がある.これが地球物理学データのデータベース化の難しい点であり,入力ミスの無い限り入力時の情報を100%信頼できる文献情報データ等と大きく異なる点である.

4.地球物理学のデータと解析の最近の傾向
 近年の地球とその周辺空間の研究の必要性の高まりのなかで,地球物理学におけるデータと解析のあり方が大きく変わってきている.それらは下記のように要約される.
(1) デ−タの種類と量が加速度的に増加しており,この傾向は今後も続くと思われる.
(2) デ−タの多種大量化に伴い,殆どのデ−タがデジタルデ−タになり,電算化,デ−タベ−ス化されなければ使えなくなっている.
(3) 計算機能力(演算速度・記憶容量)が飛躍的に進歩し,大量デ−タの高速処理が可能になった.画像・動画データも頻繁に使われるようになってきた.
(4) 通信ネットワ−クの発達により,遠隔地間の情報交換と散在するデ−タベ−スへのアクセスが可能になり,それに応じて解析方法が変化している.
(5) 計算機処理,ネットワ−ク, デ−タベ−ス化のためのハ−ド・ソフトの技術が高度化し,加速度的に進歩して,更新の期間が短くなっている.
(6) デ−タ公開・共有化の意識が高まり,研究観測のデ−タであっても取得グル−プのプライオリテイを守りながら公開されるようになってきている.
(7) デ−タ取得から解析までの時間が短縮され,リアルタイム解析の必要性も高くなっている.
(8) 多種デ−タを使う解析の総合化が進んでいる.他分野のデ−タの必要性も高まっている.
(9) 計算機シミュレ−ションが実際の現象を説明できるようになり,より多くのデ−タを使うようになってきている.シミュレ−ション,モデリング,データ解析の結合,解析方法の総合化が進んでいる.
(10)  外国データの使用頻度が上がり,デ−タ利用の国際化が進展している.デ−タの輸出入量に差があると貿易摩擦が生じる.解析が競合的になり,デ−タ処理能力の差が学問の成果に影響するようになってきている.
(11)  利用者の範囲が拡大している.非専門家への啓蒙的なデータも多くなってきている.

5. 日本の地球物理学データ処理の問題点
 日本では、地球物理学の観測と得られたデータの処理は、大別して、文部省傘下の大学・直轄研究所と、運輸省・建設省・郵政省・通産省・科学技術庁・環境庁等文部省以外の省庁に属する組織(気象庁、海上保安庁水路部、国土地理院、通信総合研究所、地質調査所、宇宙開発事業団等)によって行われている。後者の中には、データの取得と処理が法律で規定された業務になっていて、そのために必要な人員・予算がそれなりに配慮され、国際的に見ても見劣りのしないデータ活動を行っているところもある。しかし、日本全体から見ればこれはむしろ例外であって、一般には、特に、研究を主要任務とする大学や国立研究所では、デ−タ処理体制の整備の遅れのために上述の情勢変化に対応できず深刻な問題が生じている事が多い.この事は,地球物理デ−タが中心的役割を果たす環境問題にとって極めて重要である.
 問題点を列挙すると下記のようになる.
(1)「データ処理・データベース構築」の重要性の認識不足:
 データとデータ処理の重要性の認識が不足しており、データベース構築の努力が正当に評価されていない。今まで、観測計画の中にデータ処理計画を入れることも行われず,入れてもそのための予算がつかなかった。最近では,データベース構築にある程度の予算が使えるようになってきたが十分でない。
(2) データ共有・公開意識の不足:
 公共の機関で得られたデータは,原則として公開・共有されるべきであるとの意識が一般に低く,データが取得集団の専有物であるかのように扱われることが多い.
(3) 情報処理専門家の不足
 計算機技術の高度化により,データ処理が,研究の合間にやれることではなくなり、情報処理の専門家が研究者と協力して行わなければならない段階にきているのに,情報の専門家を処遇するポストがない.形の上では幾つかの関係機関にデータ処理部門があるが,そこに所属する職員は,絶対的研究者不足を反映して,他の研究・教育の仕事を兼務しており,その合間にデータ業務を行っていて,データ処理に専念できる職員はいない.

 以上の結果として,データ処理・データベース構築のための予算もマンパワーも不足している.そのため,下記のような不都合が生じている.
(4) データベース化の遅延: データベース構築が遅れ,巨費をかけて得られたデータが有効に利用されないことが多い.
(5) データの消滅・廃棄: データの保存が取得者に任されているため、有益なデータが部分的に利用されただけで廃棄される事がある。 
(6) 古データの散逸破損: デジタルデータが取得できるようになったのは比較的最近のことであり,それ以前のデータは数値表、図面、アナログデータ等の形で保存されている.長期環境変動の研究には,これらの古データを収集・整理し,計算機可読形に変換してデータベース化することも重要であるが、人手がないため、散逸・破損することが少なくない。
(7) データの輸入超過: データベース構築の遅れは,「データを取り込むが出さない日本」というイメージを定着させつつある.日米間のインターネット通信回線のトラフイク調査は,米国から日本へ一方的に流れる大量データによって,このことを裏付けている.
(8) 国際貢献の不足: 日本の観測が充実し,世界が注目するデータを生みだしつつあるにもかかわらず、データベース化の遅れのためデータ公開に問題が生じている。データに関する日本の国際貢献は、特殊な場合を除いて一般に少ないといえる。 逆に、日本のデータの処理をアメリカに依存している事もある。

6.問題の解決策
 地球は、地圏、水圏、気圏、超高層大気圏、生物圏等が相互作用しながら一つのシステムとして機能しており、地球環境の変動を予測するには、多くの個別分野で蓄積されているデータを総合的に解析することが重要である。このような異分野間の研究交流を促進するためには、どの分野の研究者も容易にアクセスできるユーザーフレンドリーなデータベースの構築を目指す必要がある。
 このような観点から、データ処理体制改善のため、関係者の意識改革も含めて以下の施策を実行するべき時に来ていると思われる.
(1) データ処理,データベースの構築の重要性の認識
 データ処理,データベース構築が地球物理学の研究にとって不可欠のものであり,独立した仕事として評価されるべきものであることの認識を確立し、そのためのポストを用意する.
(2)  データ保存・公開の原則の明確化とそのための財政的措置
 公共機関で得られたデータは,人類共通の財産として整理・保存されるべきものであるとの認識を深める.データは,一定の研究期間の後,取得者のプライオリティを守る方策を取りながら公開することを原則とする.そのため,観測計画の中にデータ処理・公開計画を明示する事を義務づけ,そのための予算を必ずつける.データ処理・公開計画のない観測計画は認めないことにする.
(3) 利用者の義務の明確化
 データ利用者は、データの取得・処理・提供に多大の労力と資金が必要であることを認識し、データ提供者に対して、プライオリテイの尊重、謝辞でのデータ利用の言及、コスト負担などについての十分な配慮をする。
  (4) 情報処理専門家の配置 
 地球物理データのデータベース化と維持には,データの内容を熟知している研究者が吟味・評価を続けて信頼度を高めることが必要である.一方,高度な計算機技術を用いて大量のデータを処理するには,情報処理の専門家を必要とする.急速に発展する計算機技術を取り入れて最適システムを維持・更新し,その上に評価の加えられた多種大量のデータベースを構築・維持するには,サイエンスと情報処理両分野の専門家の緊密な協力が必要である.データ処理,データベース構築・維持を地球物理学の発展に不可欠と考えるならば,観測データを扱う組織の内部に情報専門家のポストを確保して,この協力体制を確立する必要がある.外注・派遣・非常勤アルバイトの利用も必要であるが,その役割には限界があり,少数でも内部に情報処理の専門家を配置することが必要である.
(5) 組織の充実とネットワーク化
(5-1) 分野別「データネットワーク」の設立
 地球物理のデータ処理には,省庁にまたがる多くの機関が関係しており,データ処理・利用の方針が機関間でかなり異なる.各分野・機関間の情報交換の場を設け,相互理解を深め,調整をしながらデータの整備を行うことが必要である。また,地球環境モニタリングの為に重要性を増してきているリアルタイムでのデータの収集・提供の方策についても検討するべき時期に来ている.
 アメリカのような大規模なデータセンターを持つことは,大幅な人員増を望めない日本の現状では不可能である.それに代わる手段として,各分野(例えば,固体地球物理,気象海洋,太陽地球系物理学等)毎に,関係機関のデータ処理部門を専門別「単位データセンター」として整備充実し,それらを結合した「データセンターネットワーク」を形成して,共同運営によって全体として日本のデータ処理能力を高めるよう工夫する.単位データセンターは,直接的には,それぞれの所属機関が管轄するが,その代表からなる「運営委員会」を設け,分野別データセンターネットワークの共同運営にあたる.ネットワーク内に「コアセンター」を設け,ネットワーク運営の企画・調整・連絡・広報・会合の世話等事務局としての役割を果たす.コアセンターには,共同運営のための経費(国内・外国旅費,会合費,回線維持費,データベース構築費など)をつける.
(5-2) 「技術専門委員会」
 単位データセンターに最低一人の情報処理専門家のポストを確保する.この情報専門家が分野別データネットワーク毎の「技術専門委員会」を構成し、サイエンスの研究者と協力してデータ処理,データベース構築(外注を含む),システムの維持・更新,外国との技術的対応等にあたる.情報処理専門家の業績評価は情報処理サービスの業績によって行う.
(5-3) 「地球環境データ機構」の設立
 分野別データネットワークを統合する組織として「地球環境データ機構」を作る.「企画調整委員会」(分野別ネットワーク代表と省庁代表で構成)を設け,「機構」の企画・調整・運営にあたる.事務局として「企画調整室」を設ける. (5-4) 「地球環境データ整備計画」の策定 
 国として「地球環境データ整備計画」を策定し,組織整備とデータベース構築・公開を推進する.
(5-5) 国際対応
 単位データセンターの整備とともに,IGY(1957)当時に設立された World Data Center C2 組織の見直しを行い,国際対応組織として充実させる.WDC-C2 の代表窓口として Coordination Office を設ける.各WDC-C2 は,世界中からデータ情報を集め情報発信機能を高める.WDCのないデータセンターにも国際対応窓口を作る。データ公開ポリシーが国内/国際向けで異なり得ることも,国内データセンターとは別に窓口を設ける理由である.
(5-6) 関係他分野のデータセンターネットワークの追加
 「地球環境データ機構」は、当面、地球物理関係の3データセンターネットワークで構成するが、関係他分野のデータセンターネットワークを必要に応じて追加していく。

6.情報発信基地への発展
日本の地球物理学の発展は目覚ましく、最近では、世界が注目する観測データが得られつつある。日本にはこれを処理する技術も人的資源も十分にあり,また,ますます太くなる通信回線を通じて外国データを取り込み,加工して再輸出することも可能であるから,データ処理体制を整備すれば,世界の情報発信基地としての役割を十分に果たせるであろう.一部ではあるが,不備な体制を克服したデータ活動によって既に高い国際的評価を得ている分野もある.資源小国日本の国際貢献としてこれほど適したものはないと思われる