「理学データベースの構築促進と体制の整備に向けて」

第1章 理学各分野におけるデータベースの歴史と現状

1-1 化学分野

化学関連のデータには,
1. 文献データ(抄録などの二次情報と原論文の全文データ)
2. ファクトデータ(物性などの数値データ,スペクトルなどの図形データ,構造データなどの数値+図形データ,毒性などの文字データ,など)
3. 自然観測データ(各地での時系列の大気汚染データのように異なる場所で同時,または異なる時刻での観測値.気象や地震データと似ている.)

などがある.このうち,化学分野において今回問題とするのは,主に2のファクトデータである.3の自然観測データについては,現在日本で急速に観測値が集積されつつあるが,まだフォーマットの標準化や観測対象,観測精度などまったく整備されていないので,ネットワークの対象とするのは時期尚早かもしれない.また,1の文献データに関しては,すでに世界的な規模のCAS (Chemical Abstract Service),日本語検索が可能で科学技術全般を対象にした日本科学技術情報センター JICST(現在は科学技術振興事業団 JSTに統合)のJOIS が実用的に確立し稼動しているので,詳細な議論は不要であろう.そこで,この報告書では2のファクトデータを主に論じることとする.

(1) 化学データベースの歴史

 近代化学が誕生してからの200年強の歩みは,一面では急速に増大する化学関連情報を如何に整理して,今後の発展に活用できるようにするかという大問題との戦いであったといえる.例えば,化学の最も基本的なデータとして,物質(化合物)がある.物質の数,そしてそれらについての情報が急速に増大するとき,その的確な整理にまず必要であったのは合理的な命名法であった.古くラヴォアジエが近代的な化学命名法を提案して以来200年余り,データ整理の基本としての命名法,それ以前の問題である化合物の分類法の確立は,一時期の化学そのものであったといえる.化学にとって,データとその管理運用は,誕生以来最も重要な問題であった. 化学は自然科学の基礎学の一つであり,膨大な数の物質(後述の最も重要な2次情報文献データベースであるChemical Abstractsに登録された物質だけでも2400万種があり,さらに年間140万種の物質,多い年は300万種の物質が新規に登録されている)を取り扱う以上,扱うデータも膨大であり,かなり早い時点からデータベースの構築には世界的な関心があったといってよかろう.

(1.1) ファクトデータベース 
 化学関連ファクトデータのうち,最も古く,現在も継続しているのは,「Beilstein」の通称で親しまれている有機化合物のデータベース(正式にはHandbuch der Organische Chemie)であり,ロシアの有機化学者Beilsteinによって刊行され始めたのは1880年のことであった(その後1896年に編集はドイツ化学会に移行)。これは化合物のタイプごとに分類された物性値、合成法などの二次情報データソース(物理的・化学的性質のデータベース)で,約650万件の有機化合物のデータを含んでいる.印刷して本にするという伝統的な体裁が長く続いているが,ドイツ政府の財政援助によって1881年まで遡ってディジタル化が行なわれ,1988年からはオンライン検索も可能になった.現在第4シリーズの刊行が続いている,息の長い,重要なデータベースである.実際に使用した経験のある人によると,その使い勝手の良さは驚くほどであり,化学情報利用のあるべき姿を示していると言えるとのことである.但し独立採算性をとっているために,最近はELSEVIERの傘下に入っており,利用料金は安価とはいえず情報を得るためには経費がかかることを明確にしめしている(参考データ:物質研で5ユーザが最小契約で年間約600万円).
 それより前,ドイツの化学者Gmelinは1817年にHandbuch der Anorganische Chemie全3冊を刊行したが,これは元素別に集大成された無機化合物に関する二次情報データソースであり,現在も刊行が続いているのはBeilsteinと同じである.これもまた,「Gmelin」の略称で知られている.下って1883年,ドイツの物理化学者LandoltはBornsteinと共同で,Physikalisch-chemischen Tabellenの刊行を開始した.これはようやく勃興した物理化学の発展に対応して刊行されたもので,種々の物性データの二次情報データソースであり,単行本の形でなお刊行が続いている.これもまた「Landolt-Bornstein」の通称で広く知られている.
--------------------------------------------------------------------------------
注  この「まとめ」は,作成された当時の状況に基づいて作られたものでありますが, 化学分野でのその後の状況の変化には著しいものがあります.したがって,これは化学分野の「現状」を反映したものではない,ということを十分ご理解頂いた上でお読み下さい.

(1.2) 文献データベース
化学に関する文献データベースとして最初に現れたのはBeilstein同様,ドイツ語でかかれた「Chemisches Zentralblat」 であり,その後イギリスから「British Abstracts」,アメリカから1907年に「Chemical Abstracts」が刊行された.世界中の,化学関連(もとより生化学,薬学,農芸化学,応用化学の諸分野を含む)の全文献を網羅するという事業は,化学の急速な発展につれて膨大なものとなり,現在では先に紹介したChemical Abstractsのみが継続刊行されている.時代の流れに応じて次第にコンピュータ化され,1980年からオンライン検索が可能になった.抄録件数は1984年ですでに1000万件を越え,現時点では1880万件となり,なお年間70万件程の割合で増加している.現在ではさまざまなインデックスを利用できる巨大なデータベースとなり,世界のどこからでもアクセス可能である.
 しかし,情報を蓄積するのにお金がかかるように,情報を得るためには相当の費用がかかる.CASの場合,書誌購読費が年間300万円,それにCD-ROMを追加するとさらに100万円が必要となる.このため,多くの大学ではCASの購入を中止し,もっぱらOn-line検索に頼るところが増えてきた.幸い,On-line検索には大学割引の制度があるが,さまざまな制約のためにすべての大学が利用できるわけではない.そのような場合,あるいは大学以外の場合,On-line検索はすぐに1万円のオーダーとなる.
 最近ISI(Institute of Scientific Information)社がCitation Indexを作るために始めたデータベース「Web of Science (Citation Databases)」 では最近10数年の論文についてABSTRACT,キーワード等を収録してあり,個々の論文の引用の道筋を追うことができる.しかし,これも相当な費用がかかり,例えば工業技術院全体で年間数百万円の予算が必要である.このように,データベースが整備されていることと,それを利用できることとは,(データベースが商業的に運用されている場合は)別の話と考えるべきである.

(2)  化学データベースの現状

(2.1)  ファクトデータベース
 多様な対象を扱う化学の世界では,ファクトデータは,特定分野についてかなりの程度,データ集積が行われている.その主なものとしては,

    質量分析スペクトル
    NMRスペクトル (C-13, H-1, F-19 等のNMRスペクトル)
    物質の毒性
    赤外・ラマンスペクトル
    核反応
    電気化学(電極反応,電解質)
    化学熱力学データ(JANAF, Texas A&M など)
    結晶構造(有機,無機,金属・合金,タンパク質)
    高分子の物性

などがある.
 化学の世界では,ファクトデータとして重要なのは,構造データと物性データの二種類であり,構造データの例としてよく知られているのはX線結晶解析のデータであり,現在そのデータ蓄積センターが有機化合物・有機金属化合物に関してはイギリスのケンブリジに,無機化合物,元素に関してはドイツ,金属,合金に関してはカナダにおかれている.ケンブリジのセンターでは,有機化合物・有機金属化合物に関する新しいデータはある意味で自動的にデータが集積されるシステムが確立している.すなわち,X線結晶解析のデータを含む論文を学会誌などに発表する場合,解析結果を一定のフォーマットに整えてセンターにデポジットすることが義務づけられている.このデポジットの義務は世界の主要な雑誌全てにおいて投稿の前提になっているから,システムは世界的な規模で確立し,機能しており,すでに19.7万件が集積され,なお年間1.5万件の割合で集積が進行している.なお,データベース維持の経費は,データベースへのアクセス料によってまかなわれている(少なくともある部分は)と推定される.
(a) スペクトルデータ 
 化学の世界では,物性データの中で最も重要なものは各種スペクトルデータである.これらのデータの集積の必要性はコンピュータ導入のはるか前から認識され,紫外スペクトルのデータ集が単行本,あるいは単行本のシリーズとして刊行された.赤外スペクトルの場合,日本では日本赤外データ委員会作成のIRDCカードが南江堂から出版されていたが,19200枚刊行した後,1980年頃製作が中止された.幸い,このプロジェクトは実質的に通産省工業技術院・物質工学工業技術研究所のスペクトルデータベース「SDBS」に引き継がれて現在に至っており,最も息の長いデータベースといえる.海外では,BIO-RAD Sadtler Division の「Sadtler Infrared Spectra」が知られている.現在約15万化合物の赤外スペクトルデータが集積され,コンピューター検索が可能なデータ集として市販されている.核磁気共鳴(NMR)スペクトルのデータベースは,当初はパンチカード式のものであった.H-1 NMRスペクトルが最初Varian社から「Spectral Catalogue」として2巻の書物の形で発行され,さらにBIO-RAD Sadtler Divisionから書誌で発行されたが,これらは電子化されなかった.C-13 NMRのシフト値データについては,ドイツのBASF社で化学構造をコード化し,シフト値と関連付けてデータベース化し,現在商用ベースのシステムへ発展させた.このように,商業データベースが作られるのは,化学工業,製薬産業などを背景にもつ化学の特徴である.ただし,商業ベースに乗っているのはあくまでも例外的な少数(IRスペクトル,質量スペクトル,C-13 NMRスペクトル,熱力学データなど)である.海外で作られたものではドイツの 「SpecInfo」がデータの質,検索機能などの点で優れている. 但し料金が高いのでユーザは少ないであろう.以下にそのURLを示す.
http://www.cas.org/ONLINE/CATALOG/specinfo.html
http://www.chemicalconcepts.com/products.htm

 他に前述のBASF社が23万件のC-13 NMRデータベースをもっているが,これは社内利用である.またBIO-RAD Sadtler Divisionで約4万件のC-13スペクトルを商用運用し,Aldrichでは12,000件のC-13NMRスペクトルと同数のH-NMRスペクトルをACD(Advanced Chemistry Development)社作成の優れたソフトに載せて提供している.さらにACD社は開業してから約5年間で急速に力を伸ばし(http:file://www.acdlabs.com/), 化学で重要なソフトの開発とデータベースへの提携を行ってPersonal Databese 開発ツールとの組み合わせを行っている. ACD社はシステム開発の拠点をモスクワにおき活発な活動を行っているので,短期間で化学情報の世界に大きな影響力を持つようになっている.製品は比較的安価でユーザー数を急速に増やしている.
 国内で作られたものとしては,上記の物質工学工業技術研究所が作成している6種の異なったスペクトル(IR,質量,C-13 NMR,H-1 NMR,ラマンおよびESR)を同じ化合物辞書の下で統合しているスペクトルデータベースシステム(SDBS)はインターネットで無料公開されていて世界中からアクセスされて(1997年に公開してからアクセス数は増加し2000年に入ってから毎月40万件内外)いるが,国内アクセスは20%以下である(URL: http://www.aist.go.jp/RIODB/SDBS/). 
 質量スペクトルは米国NISTが信頼性を含めて一番有名であり,最近は質量分析装置にはライブラリーとして標準仕様で搭載されている.また質量スペクトルのほかにもガスのIRスペクトル,UVスペクトルなどを無料でインターネットで公開している
(URL:http://webbook.nist.gov/chemistry/).
(b)  物性データベース  
スペクトルデータに比べると,物性データは種類も多く,国際的な規模のもの,国内で作られたが,世界的な規模で流通しているものなど,様々である.我が国での優れたデータベースの一例として,QCDB (Quantum Chemistry Data Base)研究会が分子研の支援で作っている「QCLDB (Quantum Chemistry Literature Data Base)」はTHEOCHEMに年1冊分として出版されているほか,wwwによる登録制公開もなわれている. 情報知識学会分子・結晶データ委員会作成の 「IRSLDB (Infrared and Raman Spectroscopy Literature Data Base)」は Journal of Molecular Structureに年1冊分出版されており,赤外ラマン研究会が年6回分冊を配布している.このほかにも電気化学関連のデータベースがよく知られている.
科学技術振興事業団(JST)研究基盤情報部では,平成7(1995)年より新たなコンセプトで高分子データベース「PoLyInfo」に取り組んでいる.これは,ポリマーのデータのみならずその原料となるモノマーや重合に関する情報までを網羅的に収録したデータベース部,ポリマーの物性予測などの解析・シミュレーション機能をもつシミュレーション部から構成される総合的な高分子材料設計支援ツールを目指していて,現在,プロトタイプシステムを試験的提供中で無料で利用できる.平成10年1月の提供開始以来,約2000人がユーザ登録し,利用している(URL:http://kronos.tokyo.jst.go.jp/).
 物質の毒性や法規についての規制を個々の化学物質に対して明記することが義務付けられるようになるので,Material Safety Data Sheet(MSDS) 製品安全データシートのデータベース化は急速に進んでいる.
(c) 複合データベース
複数のファクトデータベースを一つのDBMS(Database Management System)で運用する試みはアメリカの「CIS (Chemical Information System)」が最初の系統的なものである.これは,スペクトル図,テキストなどのファクトデータを物質中心のシステムとして構築したもので,中心に物質辞書をおき,それとリンクしたファクトデータベースを揃えている. わが国においては,日本科学技術情報センター JICST(現在は科学技術振興事業団 JST に統合)が「JOIS-F」をつくっており,これもCISに類似した構成となっている.「JOIS-F」は1988年にサービスを開始し,約10年間にわたり稼働しており,そのデータの一部は今も「FACTrio」としてインターネットで提供されている(URL:,http://factrio.jst.go.jp/indexnew.html).また日米欧をメンバーとするSTN Internationalは,数値,図形のファクトデータベース(上述の質量スペクトルなど)をオンラインサービスで提供している.
 スタンドアローン型のデータベースは小型のものが多数ある.IUPACのデータベースとして認証されている「錯体の安定度定数」のデータベースはその典型的な例で,小さいながらよくできたデータベースである.系統的な努力としてはアメリカのNIST(National Institute of Standards and Technology)のNSRDS計画がある.ただしこれは個別のデータベースの集積であってネットワークではない.ドイツのLandolt-Boernsteinも膨大なデータ集であるが,個別にはデジタル化されているものの,印刷物が中心のデータ集である.
(d) 生命科学関連データ
生命科学関連データとして念頭においたのはゲノム分析データである.ゲノムについては日米欧の3研究所においてデータを分担集積し,これを相互に交換してデータベース化する体制が整っている.各データベースには395万件,29.2億ヌクレオタイド程が収容され,この3年間で3倍に成長している.この他,Brookhaven国立研究所が編集するProtein Data Bank(8,800件,3年間で2.2倍に成長)も生命科学関連の利用頻度の高いデータである.
(e) 自然観測データ 
理学データネットワーク小委員会は,日本学術会議第4部に関連ある研究連絡委員会とその専門委員会が委員を送って構成している.その構成をみると多くの研連,専門委員会がカバーする学問分野は,観測データを多用するものが多いように思われる.化学の分野では,物性・構造データが多用されるので,その意味では,化学者が理解するデータベースと,観測データによって仕事をする分野の研究者が理解するデータベースは,幾分異なるかもしれない. しかし,化学の分野にも,環境化学,地球化学,海洋化学など,観測データを多用する分野もある.さらに,データベースの構築,維持管理の問題は,データの構造によらない部分も少なくない.もとより現在の状況では,合同で企画を進めることに大きな支障は無いが,データの種類,構造に応じて,理学データネットワークの活動をいくつかの部門に分けることも,将来的には意識すべきであろう.化学にとっても,データベースの重要性は,観測データに全面的に依存している他の分野と変わるものではない.むしろ,物性・構造データに大きく依存する分野の代弁者として,理学データネットワークにおいて一定の役割を果たすべきである.
(f) 案内データベース
昨年から,IUPAC,CODATA,ICSTIの三つの国際機関の後援を得て,IUCOSPED計画が旗揚げした.これは世界に散在している大小のファクトデータベース(スペクトルと結晶構造を除く)の案内システムを構築しようとする計画で,その要点は

1. データベースのディレクトリをつくる
2. そのため,数値データベースの標準フォーマット(SELF format)をつくり,それぞれのデータベースをSELFに変換できるようにする
3. データベースの案内データベースを検索するソフトを開発する
4. 世界のファクトデータベース製作者にIUCOSPEDに参加して登録するように勧誘する
5. 案内データベースと検索エンジンをInternetのサイトにのせる

ということにある.日本でも,この線に沿った活動ないしは検討・準備を進めることが望ましい.

 化学の世界では系統的な化合物名はIUPAC名とCAS名の他に慣用名があり言語も英語中心であるが,日本語の化合物名の利便性は我々日本語を母国語とする化学者には捨てがたいものがある.これは世界中状況は同じと考えられる.したがって化学情報の世界ではCAS登録番号を物質同定の共通キーにすることが一般化している.CASの登録番号があれば分散型に開発された独立のデータベースを案内データベースから自動的にリンクを張ることは容易である.また化学構造式のコンピュータ化には幾つかの方式があり,CASとBeilsteinは別形式のようであるが,もう一つの共通ファーマットが MOLfile(モルファイル)である.座標データとコネクションテーブルから形成されているので,相互変換は容易である.化学構造式から化合物名への変換,化合物名から化学構造式への変換が自動的にできるツールも開発されている.スペクトルの交換のためのJCAMP-DXの普及もすすんであり,化学情報をデータベース化するために必要な基本的なツールは整ってきている.ただし多様性の学問である化学のデータベースでは100%の情報が統一的にデータベース化するための道のりは非常に遠いと思われる.
(g) 文献データベース
 学問の諸分野における学際化の進行が著しい反面,学問の細分化も平行して起こっている.これは雨後の筍のごとくに新たに刊行される学術雑誌の数を見るだけでも明らかである.だが,それらの雑誌の多くは,たかだが500部程度が印刷,頒布されているに過ぎないという.化学の分野に限っても,日本だけでも数万の化学者がいるという現実とはかなり食い違っている.もとより化学者の全てが同じ情報を求めているのではなく,比較的限られた数の化学者がある種類の情報を求めているからではあるが.だが,このような形態の出版が長続きするとは思われず,いずれは電子出版によって置き換えられるだろう.それはとりもなおさず,ネットワークによる理学データ共用の一つの現れである.印刷物としての出版には,出版社の介在が必要であろうが,いずれ研究者・技術者による自主管理による運用が普及しよう.電子ジャーナルの発行は一般的になっており,アメリカ化学会,アメリカ物理学会,出版社のElsevier,Wiley,Springerなどでは全文電子化が行われている.日本化学会においてもすでに欧文誌(Bulletin of the Chemial Society of Japan)の全文データベース化は数年前から実施しており,さらに速報誌(Chemistry Letters)についても全文データベース化を進めている.これには文部省の支援があったことを付記しておく.
 電子出版の将来であるが,研究者からみると冊子が届く前に見られること,検索ができることなど機能は多い.また,従来の形の出版が経費対価格の問題で行き詰まっており,科学出版の世界で大きな変革が進行しつつある.特にElsevierは化学情報関係の会社を傘下に入れてヨーロッパを中心に科学情報の一大勢力になりつつあり,すでにBerlstein,MDLもその傘下に納められた.アメリカはCASを中心に活動しており,アジアでの科学情報活動のイニシャイチブを日本がとる必要を声を大にして言いたい.データベースの構築,運営など,すべての面で日本が大幅に立ち遅れているのではないかという指摘をする専門家が多い.

 化学に関連するデータベースをすべて網羅することは難しいが,化学者が化学情報を集めるうえで非常に重要としている主なるデータベースについては,一通り記述したつもりである.化学以外の分野の方から見ると,化学関連のデータベースは非常に整備されているように見えるかもしれないが,公共性が大きいと考えられるDBであっても,ほとんどが独立採算性の原則を強いられており,ユーザからみると高価であり,情報収集には金がかかる現実を明示している.辛うじて政府機関であるNIST,物質研,JSTなどが無料でインターネットサービスを行っているのに過ぎない .

(3)  化学データベースの問題点

(3.1) 実情の把握,ディレクトリ作成
化学関連のデータベースの数はきわめて大きく,その実情を正確に把握することは,膨大な時間とエネルギー(つまり人手とお金)を投入しない限り不可能であると判断せざるを得ない.アンケート調査と言っても,化学を扱う組織(大学や研究所)の数が膨大であるばかりではなく,一つの組織に多数のアンケート対象者がいる.この種の調査自体が一つの大きな科研費の対象となるべきものであり,予算の裏付けもない一個人がいささか曖昧な立場でできるものではない.
 化学のように広い範囲の研究題材と膨大な数の研究者を含む分野では,データベースのディレクトリを作成するには,個人レベルではもとより,組織として行うにしても,それなりの体制を組む必要がある.この種の仕事は,理学データネットワーク立ち上げのための基礎資料の枠を越えており,むしろ理学データネットワークが立ち上がった際の最初のプロジェクトとすべきであろう.
 化学の分野における学術情報の保存,伝播に大きな役割を果たしている(社)化学情報協会においても,英文によるデータベースのディレクトリはつくられておらず,また,そのような計画も無いと聞いている.
 データベースのディレクトリを作成することの困難さを示す一例は,日本学術会議・学術データ情報研究連絡委員会と日本コデータ協会(現在は情報知識学会コデータ部会)の共編になる「日本のデータソース ――ファクトデータの調査(1)――」の刊行である.ここに含まれているのは幅広い,まさに理・工・医・農・薬学データであり,化学関係はその一部にすぎない.このディレクトリが発行されたのは1988年であて,これを核として日本だけでなく,中国,韓国のデータベースを含めたものがCODATA Task Group on East-Asian Data Sources(現在の名称はCODATA Task Group on Data Sources in Asian-Oceanic Countries)によって1989年にCODATA Directory of East-Asian Data Sources for Science and Technologyとして発行された(CODATA Bulletin, Vol. 21, No. 3).調査から発行までにかなりの時間を要するため,発行の時点ですでにデータベースの状況に変化が生じていろことがあった.そこで,再度調査が行われ,その結果は,The CODATA Directory of Data Sources for Science and Technology in Asian-Oceanic Countriesとして1994年に発行された(CODATA Monograph Series, Vol. 2).このディレクトリーには上記三か国の他に,台湾,フィリッピン,タイのデータベースも含まれている.このような事業を継続的に行うことの重要性は十分に認識されたが,ボランティアが僅かな資金で続けることは到底不可能なため,以後このような事業は行われていない.
 このような状況であるから,先に述べたように,理学データネットワークの立ち上げに成功した際,第1の事業としてデータベースのディレクトリーを作成する事業を取り上げるのは極めて適切であると考える.ただし,既存のこの種の努力(例えば学術情報センターの)と重複してはなるまい.また,例えばコデータCODATAなどとの協力体制を深め,国際的な規模での事業とリンクさせることが必要になろう.

(3.2) 人材の育成と評価 
情報化時代において,ネットワークの立ち上げと管理運営とデータベースの構築と維持運営には若干の共通点があるようである.第一の共通点は,中心的役割を果たす人は,科学および情報の双方についてある程度の知識を持つことが要請される.この条件を充たす人材を確保するのが容易ではないが,若い研究者たちが情報関連の知識を次第に自然に獲得している業況を考えると,化学のある分野についての専門知識を十分蓄え,相当の研究経験をつんだ専門家がデータベースの重要性を認識し,自ら貢献しようとする意欲を持つことが大切だろう.
 第二の共通点は,第一の共通点と深い関係にあるのだが,このような専門家に対する正当な評価がなかなか与えられないという点である.事情は大学の場合でも(国公立)研究所の場合でも同じようであり,この種の仕事は業績として認めてもらえない場合が多い.これは,研究費はともかく,将来の昇進に関して大変なマイナスとなり,このために,本当は好きでやりたい人がいても,その人達の意欲をそぐことになる.ある国立大学でのLANの立ち上げに中心的役割を果たした若手助手(情報関係の部署には所属していなかった)は,所属部局での低い評価(好きなことをやって遊んでいるといった評価)に厭気がさして民間に転出してしまったという実例もある.
 このことからみても,何らかの評価システムを確立することが必要なのだが,日本の伝統,慣習は,本人が属する組織にとってプロパーな仕事以外のものは評価しない.したがって,本来の仕事としてネットワークやデータベースに専念できる職を設けるのが望ましい.それをある新設組織に集中するか,あるいは既存の各組織に分散するかについては,分野の事情もあって,一概には言えない.十分に議論する必要があろう.
 これまで何とかなったのは,ネットワークにしてもデータベースにしても,まさに勃興期にあったから,優秀な人材が不利を承知で新分野に取り組んだからである.新しいものは,確かに魅力があったのだ.だが,今やネットワークにしてもデータベースにしても,重要さにいささかのゆらぎもないが,未開拓(研究の新しい対象)という魅力を失いつつあることは事実である.評価をともなわない仕事に,これまでのようなボランティアをあてにしては,あてがはずれるだろう.このままでは,日本は世界に遅れをとることは必至である.これからは,例えば各々の分野で業績を挙げた熟年の研究者が,データを収録し,評価していくのが現実的な方策かもしれない.
 他の分野に属しながら,情報関連の仕事もこなす人材の育成が成功するか否かは,育成された人材が正当に受け入れられ,受けた教育にふさわしい仕事を与えられ,評価されるかにかかっている.我が国の現状は,この前提があやうい情況であるといえる.

(3.3) 恒常的予算と人員配置
 これまでに述べてきたことを幾分楽観的に見ると,後継者の問題を別にすれば,化学分野におけるデータベースの構築や普及に,少なくとも過去において問題がないように見えるかもしれない.確かに,世界規模で見ると,商業的であるか,アカデミックであるかを問わず,需要が多いものに関しては,必要な資金の獲得情況,あるいは利用の頻度など,詳細は不明であるが,ともかく継続しているし,運用されているという事実は残る. しかし,これを「日本ではどうか」という問いに変えると,問題は深刻であるといわざるを得ない.その理由はいくつもあるが,最大のものは,おそらく他の分野と同様,予算措置の上でも,業績評価の面でも,データベースの構築,管理,運営がアカデミックな仕事と認められにくい,ということにつきる.例えば,赤外・ラマンのデータベース,NMRのデータベースなどは,我が国が初期から世界に互して,あるいは世界に先行して進めたものであるが,これらはいずれも専門のスタッフが恒常的な予算や専門とする組織の中で作成したのではなく,関係の深い研究者がいわばボランティア的な形で,科研費や,省庁の研究費などの,単年度あるいは数年を限度とした研究費にたよって作成したものである.作成はともかく,維持管理,あるいはアップデートが難しい状況にある.
 化学関連分野に限らず,現在構築中のデータベースのほとんどが,文部省を始めとする各省庁の科研費あるいは相当する研究費に依存している.これは額の多寡を問わず,基本的には数年度継続すると打ち切られる性質のものであり ,構築担当者は研究費の継続のために腐心するという状況が続いている.データベースの場合,明白に「継続は力」である.ひとたび途切れたら,それはもうお終いと言ってよく,それまでの苦労は水の泡となる.重要性が認識されたものについては,継続的な蓄積が可能な財政的保証が必要である.それには人員を含むことも当然である.化学分野においても,第一世代においては,何とか人材が確保できた.知的好奇心から,あるいは使命感から, データベース構築に情熱を注いだ若干の優れた化学者がいた.だが,次世代に,データベースの構築のような地道な,しかも酬われないかもしれない仕事に多くのエネルギーをさく後継者を期待するのは,楽観的に過ぎると言えよう.

(3.4) 支援事業の拡充と継続
 科学技術振興事業団JSTはデータベース化支援事業を実施しているが,現時点では,この事業の対象は国公立試験研究機関等であり,大学は対象されていない.したがってこの事業を大学にも拡大するか,あるいは現在の科研費のデータベース支援事業を大幅に拡大することが必要であろう.
 資源の保存と有効利用という立場を考えると,新規のデータベースを立ち上げる前に,それと同様な内容,目的を持つデータベースがあるかどうかを十分に吟味する必要があろう.データベース検索システムが,理屈の上では例えば学術情報センターにあるものの,実際にはそれが十分には機能していないので,その種のチェックは必ずしも容易ではない.もし同様な内容,目的を持つデータベースがある場合には,新規に構築を始めるよりも,既存のものを大きく育てていくのが有効であろう.
 データベース構築の最大のネックは立ち上げそのものではなく,立ち上げたものを継続させることである.ここで継続というのは,単にそのデータベースがアップデートされるだけではなく,それが有効に利用されるような体制の構築と維持を含む.研究成果を上げる事も大切だが,それを管理し,整理して使いやすい形にすることも同じように重要である.データベース関連支援に要する費用は,研究費と同じ性格のものであることを確認したい.具体的には,データベースの規模にもよるが,例えば年間数百万円の予算を必要とする中規模のデータベースは,理学全体については相当数に達すると考えられる.それらの全てを支援することが可能であれば問題はない.しかし,現実的にはそれは困難であろう.そうすると,そのいくつかを選ばなければならない問題が生じる.そうなると,どのような判断基準で支援対象を選ぶかはきわめて重要である.この種の選択に際して,政府主導型がとられると,とかく新聞記事になりそうなものが選択されるおそれがある. 学協会に全面委任するのが適当かどうかは不明だが,長期的視野で支援すべきものを選択することが必要であろう.

(3.5)  国際化
 データベース集積の試みはより広い視野からなされている.特に学術情報センターから毎年刊行されている「学術情報データベース実態調査報告書」には,理学以外のものも含めて,膨大な数のデータベースが収録されており,また,登録のためのフォーマットなどが用意されているので,これ以上のものを個人レベルで用意することは難しい.ただ,このシリーズは和文であるから,国際的利用を意図するなら,別の構想が必要になる.学術情報センターは,まずデータベースの英語化,少なくとも概要の英語化を奨励する一方で,報告書を日英両方の言語で製作するようにすべきである.日本が情報の発信国として開発途上国並であるといわれるのはこのあたりにある.おそらく企画者は,データベースのほとんどが日本語版になっているから,報告書だけが英語でも意味はない,と考えているのだろう.しかし,それは退嬰的な考えである.たとえデータベースが日本語であっても,それが本当に必要なものであれば,人はそれを読みにいくだろう.日本語だから,外国では利用されないだろうと考えるのはまずいと思う.一方では英語化を進め,一方では外国人に日本語への対応を考えさせてよいのではないだろうか.