「理学データベースの構築促進と体制の整備に向けて」

第1章 理学各分野におけるデータベースの歴史と現状

1-5 地質学分野

(1)  地質学データの特徴
(1.1) 多様性
 地質学では,物理・科学・生物など理学の他の分野のデータだけでなく,土木・建築などの工学および考古学・歴史学などの人文科学のデータも扱うことが必要である.そこで,「理学データネットワーク」における「理学データ」を「理学で使用するデータ」と考える必要がある.

(1.2)  記載データ
 理学分野においては研究対象の記載が研究の出発点である.記載データとしては,多くの分野では実験・計測・分析に基づく数値データが主体をしめると思われるが,地質学ではそれらに加えて観察による定性的な記載データが多く,さらに写真などの画像データも記載には不可欠である.地質学では数値化されている部分の割合は少なく,定性データや画像データがより大きな比重を占めている.定性データについては数値化と客観性の確保の問題があり,画像データでは情報抽出とデータサイズ圧縮の問題があり,数値情報と同等には扱えないのが現状である.しかし,地質学では,数値情報だけでは記載は極めて不完全なものとなるので,定性データや画像データを含めたデータネットワークが不可欠である.

(1.3) ネットワークの必要性
 地質学分野では,記載データや画像データの比重が高く,数値化されたデータだけでなく,定性データや写真データなども併せて扱う必要がある.また,総合科学としての性格から,理学のみならず工学・医学・歴史学などを含めた広い分野のデータを参照することが必要である.地質学が必要とする全てのデータを収納する巨大かつ複雑なデータベースを構築することは現実的でなく,データの構造の異なった多分野のデータベースを互いにリンクさせて使用するしかない.このような事情から,地質学にとってデータベースのネットワーク化は基本的要請となっている.

(1.4)  時間軸
 地質学分野のデータは,他の地球環境データと同様に,時間・空間の4次元座標で規定される.その時間軸が他分野に比べて極めて大きく,他分野では認識されないような緩やかな変動を扱っていることと,歴史科学としての側面を持っていることが特徴である.このことから,地質学データは理学分野の基礎データと位置づけられている.
 地質学分野では,扱う時間軸が非常に大きいため,「現在(Recent)」という言葉で数日どころか,数年から数千年,場合によっては数万年という時間が含まる.リアルタイムという言葉を現在に関するものと考え,地質学でいう現在の概念を適用すれば,地質学データもリアルタイム情報とみなされる.軟弱地盤の圧密,岩盤の風化・変質などは年単位で変化し,基盤の変成・変形などは100年単位で変化する.気象情報のような秒・分の単位での変動ではないので忘れられがちであるが,より大きなタイムスパンでの変動も定期的に記載してかないと,データ欠損・不足となり,後の研究で支障が生ずる.リアルタイムの定義におけるタイムスパンを幅広く取り,年単位以上の間隔のデータも収納することにより,千年・万年さらにそれ以上の長周期の環境変動である地質学データの活用が可能になる.

(1.5) 過去のデータ 過去のデータの参照が必要であることは理学全般にとって必要なことはいうまでもないが,理学の中でも特に地質学の研究では過去のデータを参照する割合が大きくなっている.それは,深海掘削試料や月の岩石のように試料の採取に膨大な経費が掛かるもの,多くの化石標本のように同一地点へ行っても再度同じ試料を採取することが不可能なもの,地質露頭の記載データのように露頭そのものが失われてしまうものなど,一度採取されたデータを再度採取することが不可能なことも多いからである.試料の分析は再度行うことができても,試料そのものを再度採取できないという特性から,分析データの保管に加えて,試料そのものの保管とその所在情報が研究の発展に寄与する比重が他の分野より大きくなっている.

(2) 地質学におけるデータ公開の意義
 理学分野全般におけるデータ公開のメリットとしてあげられている,データの有効利用,研究精度の向上,研究資源の効率化,などは地質学にもあてはまる.それに加えて,地質学独自のものとして以下の点がある.
 地質学はデータの蓄積によって研究を推進する傾向が強く,理学の中でもとりわけ過去のデータを必要とする割合が大きい分野である.敢えていえば,新しく採取したデータだけでは研究は進められないと言っても過言ではない.
 地質学のデータは非常に複雑なだけでなく曖昧性もあり,ある研究が完成しても,そこで得られたデータに含まれる全ての情報が完全に使用され尽くすということはない.そのため,研究者は,使用中のデータだけでなく,使用後のデータについても公表を渋るという傾向がある.理学全般に共通のデータの公表が遅れることのデメリットはいくつかあるが,地質学ではこのように,他の研究で採取されたデータの中に含まれる貴重な情報が使われずに死蔵されてしまうという問題もある.
 地質学では他の分野よりデータの個別性および分散性が強いこともあって,データそのものが公開されることに加えて,データの所在に関する情報が公開されることも大切である.データベース化されているデータであっても,データベースの所在そのものが周知されていないため利用されていない例は多くある.この問題は,データベースをインターネット上での公開すると共に,関連するホームページからのリンクを拡げることである程度は解決されるであろう.しかし,データの所在に関する情報を積極的に公開・普及することは重要であり,データベースの内容・利用に関するデータベースも必要である.
 野外調査とそこで得られた試料が研究の基礎となる地質学分野では,データに含まれる地域性・曖昧性からデータの規格化・定量化が遅れていて,他の研究で採取されたデータをそのままでは使えないことが多い.また,記載・定性データの場合は,研究で使われなかった部分は研究者のファイルに残され,公表されないことが多い.このため,地質学分野では,過去のデータの参照が重要であるにもかかわらず,データの交流が遅れている.定量化されていないデータを扱う技術の積極的応用と,データ取得者の所有権のについてのコンセンサスの確立によって,ネットワークによるデータの公開・共用を促進する必要がある.
 一方,理学全般におけるデータ公開上の問題点として,データ精度の不均一,データの信頼性の検定法,データの所有権・著作権,データ利用時の責任,などがあるが,上述の問題と関連して,地質学で特に指摘しておきたいのは以下の2点である.
 地質学データの中でも数値化された計測値や分析値については,利用にあたってデータの採取法や精度を確認すれば問題ないかも知れない.しかし,そこに含まれる記述データや定性データについては,そのデータがどのような目的で採取されたかによって,用語(値)の区分や記載の信頼性が全く異なってしまうことを考えておかねばならない.たとえば,第四紀層の調査の中で得られた古生層についての記載は,古生層の一般的記載としては使えても,古生層そのものの研究のために必要な観察がなされていないことが多く,そのままでは使えないかもしれない.  また,データが大学などの研究機関以外で採取された場合については,本来の研究目的ではなかった情報がデータに含まれているとすると,不必要なデータの採取であったとして,調査予算の返還が必要になることもあり得る.そのようなことが行われると,今後の調査において余分なデータを採取しないようになり,限定的な調査しか行えなくなる危険性がある.このような後ろ向きの政策を取ることがないよう,データに含まれている他の研究に有用な情報の積極的利用を認める社会的コンセンサスの確立が必要である.

(3)  地質学データベースの現状
 地質学のデータベースについては,(1)地質調査所,(2)研究機関単位,(3)学会および研究会,および(4)研究者個人,の四つのレベルに分けて考える必要がある.

(3.1)  通産省工業技術院地質調査所におけるデータベース
 地質調査所は日本における唯一の地質学の総合的研究機関であり,その中の地質情報センターでは,地質調査所がこれまでに収集した各種のデータをデータベース化して公表する作業が進められている.現在までに十数個のデータベースがCDまたはネットワーク上で公開されており,公開準備中のものも多い.
 将来の独立法人化を考慮に入れて,地質情報の中央センターとしての役割を明確にするため,情報化推進委員会を設けて活動している.地質調査所の各部の持つデータについては,地質情報センターがシステム面のサポートを行って,それぞれの部でデータベース化しているが,地質図のディジタル化のように地質情報センター自身が中心となって行っているものもある.
 地質調査所は研究機関としての性格が強く,外部からも,内部的にも,まだ地質情報の中央センターとして充分認知されていない状況である.しかし,地質調査所以外に地質情報の中央センターとなりうる機関が存在しない以上,この役割が公的に認知され,そのための予算と人員が確保されることが望まれる.

(3.2) 研究機関単位でのデータベース
 従来,地質関係の標本は大学の地質関係の教室,および,国立科学博物館を中心とする博物館に収蔵されてきた.近年,いくつかの国立大学(東大,京大,東北大,北大)で大学博物館の設置が認められ,他の大学でも申請中あるいは計画中である.これに伴って,地質関係の標本・資料は大学博物館に移される方向にあり,それぞれの大学博物館では標本に関するデータベース化が始まっている.また,国立科学博物館を始め,多くの国公立博物館でも,標本のデータベース化が進められている.
 いずれも始まったばかりで,まだ具体化しているわけではなく,人員については,データベースの要員はまだいないか,いても専門官一人だけという状況で,他の業務の片手間でデータベース化を行っている状況である.予算についても,データベースそのものに関する予算はほとんどなく,資料整理のための予算の一部を使っているという状況である.
 これらはいずれも将来的にはネットワーク化することが検討されており,大学博物館協議会および科学博物館協議会において,データ構造の共通化やネットワーク化のための情報交換が始まっている.  他の研究機関においても,それぞれの機関内にあるデータのデータベース化の動きがあり,一部の機関では公開しているものもある.しかし,大部分はデータベース化を始めたばかりか検討中のものが多い.これらは,それぞれの研究機関内での構築であり,まだ,他の機関とのネットワーク化までは進んでいない.
 いくつかの企業でもデータベース化を行ったものもあるが,その維持・管理を恒久的に続けることは,中小企業が中心の地質関係の企業では極めて困難である.特に近年の経済状況の悪化で,比較的大きな企業でも企業独自のデータベースをやめた例も少なくない.

(3.3)  学会および研究会でのデータベース
 地質関係の学会の中には,正式の作業グループをおいてデータベース化進めているものもある(例:古生物学会の古脊椎動物研究グループにより15年以上前から構築されている化石脊椎動物標本データベースJAFOV)が,大部分は自発的な研究者グループが集団がデータベースを作成して,CD−ROMないしホームページ上でボランティア的に公開しているにすぎない.現在までに少なくとも十件以上の地質学関係のデータベースが構築されているが,管理者の所在が不定で,これらについての情報を集めることは困難である.それぞれのデータベースの維持・管理体制は確立されておらず,それらの仕様の共通化やネットワーク化についての議論はまだ行われていない.

(3.4) 研究者個人のデータベース
 地質学の研究者はデータを多数保有しているが,個人レベルでは必ずしもデータベース化が必要でないと考える研究者も少なくない.しかし,近年におけるデータベース関連ソフトウェアの進歩と普及によって,個人レベルのデータをデータベース化している例は増えつつある.共同研究で採取したデータを持ち寄ってデータベース化し,それを共同利用しているものもある(例:堆積岩研究者が岩石学データベースを共同構築・共同利用)が,大部分は個人での利用に限られている.データベースの個人構築が始まったばかりの段階で,将来のデータベースのネットワーク化に向けた共通仕様などの検討は行われていない.

(4) 地質学データベースの問題点
(4.1) データベース構築・維持・管理体制
 データベースについては,最初に構築するだけではなく,その後も維持・管理していくことが必要である.そのため,データベースの立ち上げのためのプロジェクトに関わる企画・組織・予算などの大規模ではあるが一時的な問題のほかに,その後の保守・拡充のための人員・予算を含めた恒常的体制を確立することが大切である.将来的には分野ごとのデータベース管理センターを設立することも考えていかねばならない.このことは理学全般に共通する課題であるが,地質学ではこれに加えて以下の点を考える必要がある.

(4.2) データの収集・入力
 地質学では,データの収集・入力に関わる部分の強化が特に重要である.というのは,地質学では,観測・計測機器から大量のデータが経常的に出てくることは少なく,研究者が個別に実験・観察・記載することによって得られるデータが多い.このようなデータは,機器から自動的に送り出されてくるデータと違って,データベースへの入力にあたって多大の人力と時間を必要とする.つまり,地質学データベースでは,単位データ量に対するデータベース化に要する時間・労働の量が極めて大きくなるので,データのサイズだけで構築の難易度を判断できない.大量データを効率よくデータベース化するための支援は必要であるが,データベース化に手間が掛かるものに対する支援も忘れてはならない.

(4.3) 画像データ・定性的記載情報
 これと関連して,地質学ではディジタル化されていない情報の比率が高く,これがデータベース化を阻んでいる大きな要因である.写真やスケッチなどの画像データは,スキャナーでデジタル化すれば済むという問題ではなく,データの精度や利用法を考慮したデータの保管法を考えねばならない.また,定性的な記載情報についても,全文テキストデータで入力すれば済むものではなく,やはりなんらかの標準化・システム化を行わなければ,元のデータ採取者(調査・観察者)がいなくなれば,全く使えなくなってしまう危険がある.データベース化する以前のシステム化の作業についても支援していく必要がある.

(4.4) 個人レベルデータ
 さらに,地質学では個人レベルで所有しているデータの割合が極めて高く,しかもそれらがそのままではデータベース化できない形式(野帳,グラフ,写真など)で保有されている.将来これらをデータネットワークに載せるためには,まず個人レベルでデータベース化してもらうことが必要である.
このように,地質学では,研究およびデータの特性から,データベース化が遅れていた.幸い,情報化の遅れていた地質学でも,パソコンやデータベースの技術が徐々に浸透しつつあり,特に若い世代を中心に,この方向に向けて動きが生まれつつある.いたずらに地質学の特殊性を強調してデータベース化を遅らせて他の分野との乖離を招くのではなく,その特殊性を考慮したデータベースの整備に向けて,若い世代のエネルギーを活かしていく必要がある.

(4.5)  情報技術者の協力
 他の分野と同様に,地質学分野のデータベースの構築に当たっては,当面は,地質学者と情報技術者がタイアップした体制となる.技術的な部分については情報処理の専門に委託するとしても,試料採取に先立つ現調査から計測・分析・補正に至るデータの採取に関わる部分,データの選別・評価・解釈に関わる部分,および,データの特性に対応したシステムの基本設計などについては,地質学者が主体で行わねばならない.その際に,地質学者も情報処理の基礎を理解し,情報技術者も地質学データの特性を理解できることが必要である.将来的には,情報技術を持った地質学者のグループがデータベースの構築全体を担当し,ハード面の管理やネットワークへの接続やなどのみを情報技術者に委託する体制とすることが必要である.

(4.6) 人材の育成
 それぞれの分野のデータについてはそれぞれの分野のデータの内容と特性を理解している人が管理する必要がある.今後のデータベースが基本的にネットワーク上で公開・利用されていくことを考えれば,それぞれの分野の専門家で,しかもネットワークにおけるデータの管理・利用についても理解できる人材を確保していくことが必要である.地質学では,これまではこの条件を満たす人が現れることを待つか,あるいは,一般の情報処理担当者に無理を言ってお願いするという状況であったが,これでは今後の需要の拡大に対して必要な人材を恒常的に確保することはできない.地質学関係の学会でも,これからの地質学者には情報技術も必要なことが認識されている.たとえば,日本地質学会において検討されているJABEE(日本技術者教育認定機構)に対応する大学カリキュラムや,日本情報地質学会において準備されている情報地質士の資格制度などでは,ネットワーク時代に対応した情報技術が重要な柱となっている.学会としてネットワーク時代の人材を積極的に育成しようという動きと見てよいであろう.