「理学データベースの構築促進と体制の整備に向けて」

第1章 理学各分野におけるデータベースの歴史と現状

1-2 生物学分野

(1)  生物学データベースの歴史と現状
(1.1) 概観
 古く18世紀のリンネの時代から,生物学においては,それまでに発見された膨大な生物種の博物学・分類学が盛んに行われ,データベースの重要性が理解されていた.近年,さまざまな生物種におけるゲノム解析(注:ゲノムとは生物個体にある遺伝子の総称)が進展し,既に大腸菌を初めとするバクテリア,古細菌,らんそう,酵母,線虫,ショウジョウバエなどのゲノム解析が終了し,ヒト(動物の代表)とシロイズナズナ(植物の代表)のゲノム解析も,あと1,2年のうちに終了するとアナウンスされている.
生物学の成果として解析された生データとしての一次データベースは,世界中の様々なサイトで整理・統合されつつある.これらは,初めは比較的小規模なデータベースであったが,現在は,専門の研究所あるいは事業所が,大規模な国際協力によって,データベースの構築・維持・管理を行っている場合が多い.その理由は,データ量が膨大となり,登録にあたってのデータの質を維持するための編集作業が,小さな機関では不可能となったためである.
また,生物学の特徴であるが,ある生物種に特化した研究が,比較的小規模な機関・研究グループで行われている場合も多い.これらのグループが解析した結果を,独自にWeb site を立ち上げてデータを公開しているケースもある.一方,それら複数の一次データベースを様々にリンク・編集し,解析するためのソフトウェアによって加工した二次データベースも多く作成されつつある.これらの二次データベースは,多くが,個人あるいは比較的小規模の機関・研究グループによって構築されている.

(1.2) インターネットの影響
 ゲノム解析とほぼ時期を同じくして,インターネットが全世界的に普及した.このため,膨大なデータは解析されてネットワーク上のデータベースに登録されると同時に,世界中から瞬時にアクセスできるようになってきた.その結果,生物学のほぼ全ての分野にわたって,データベースを活用した研究が盛んになり,バイオインフォーマティクス(生命情報科学)と呼ばれる学問領域も生まれ,専門の月刊の国際学術雑誌(Bioinformatics)も発刊されている.これらのデータベースを活用した研究においては,様々な種類のデータベースが公開されていることが原則であり,現状のほとんどの一次データベースは無料で一般に公開されている.

(1.3) リアルタイム化
 生物学分野におけるこれまでのデータ取得・解析のスピードは,分子生物学実験および生化学実験の結果を待つため,リアルタイム性が要求されることはなかった.しかし,昨今のゲノム解析等におけるHigh Through Put テクノロジーの進展は,高速で大量の理学情報を産み始めている.一方,生物学分野における理学データベースでは,現在,データベースの統計的解析や検索を行う作業は,データ量が莫大なため,各データベースを管理している機関のコンピュータで行うか,データをあらかじめダウンロードして行う方式を取らざるを得ない状況にある.このため,現在では毎日のように更新されている新しいデータをもとにしたオリジナルな研究を行うには,障害となっている.
 理学データのリアルタイム性を考慮した高速ネットワークが実現すれば,直接,データベースの膨大な最新のデータにアクセスしながら解析を行うことが可能となり,High Through Put テクノロジーに対応した,新しい方式の研究形態も可能となろう.

(2)  国内外の生物学データベース構築の現状 
 国内外で運営されている大規模データベースの構築例を紹介する.
 例えば国内においては,遺伝研生命情報研究センターのDDBJ(DNA Data Bank of Japan:日本DNAデータバンク)は,約60名の規模で運営され,歴史的にも1986年から国際DNAデータバンクの3局の1つとして活動している.
 海外におけるデータベースははるかに大きな規模で運営されている.ヨーロッパでは,EBI (European Bioinformataics Institute)が,欧州のバイオ情報センターとして,EMBL (European Molecular Biology Laboratory)のアウトステーションとして数年前にケンブリッジ郊外に設立され,運営されている.このEBIは,大ゲノム解析センターであるサンガーセンターに隣接している.データベースグループ(約50名),解析研究グループ(約20名),及び産業サポートグループ(約15名)の3部門があり,全体で約100名である.年間運営費は,5百万ポンド(約9億円)で,その40%をEUから,40%をEMBLから,20%を産業からそれぞれサポートされている.データベース部門は,データベースの構築・維持・提供を行い,更に,データベース技術の研究もしている.代表的なデータベースには,核酸塩基配列EMBL,蛋白質アミノ酸配列SwissProt,仲介データベースTrEMBL及びMSDがあり,他に外部と共同のデータベース開発が10件ほどある(FlyBase, IMGT DB, Mit DBなど).解析研究グループでは,蛋白質立体構造データベースPDBの構造分類の自動化や,配列データから構造・機能の予測などを進めている.産業サポートグループは,加入約20社に対するサポートを行う.毎月,データベースや解析方法などのセミナー・ワークショップをやる以外に,3ヶ月ごとに業務委員会が開かれる.ニュースやグループ内Webも出している.データベースサービス,新規ソフトウェアの開示や相談にものっている.
 米国においては,NCBI (National Center for Biotechnology Information)が,NIHのNLM (National Library of Medicine)の下部機関としてバイオ情報センターの役割を果たしている.NCBI(総勢約130名)には,Information Engineering Branch (IEB)(約100名),Information Resource Branch (IRB) (約15名),Basic Research Branch (Computational Biology Branch) (CBB)(約20名)の3つのブランチがある.また,全予算は年間16百万ドル(20数億円)である.IEBは,核酸塩基配列データベースGenBankの構築などデータベース作成,およびBLASTなどのソフトウェアの作成を行っている.NCBIのコンピュータ構成は,SUNサーバー 15台(大部分Exterprize4000クラス,一部450)Origin 2000 SGIサーバー 4台,他に,通常のSUN, SGIワークステーション多数と,各人PC.BLASTサーチ専用に,最新のIntel 4CPUを導入予定.スタッフ構成は,コンピュータ関係が 管理者4名,技術者2名,他の管理者 3名,契約プログラマー35名,契約データベース抽出者 12名,契約相談員 5名,残り約75名 専門研究員(大部分生物系,大部分Ph.D)中,リーダークラス7名という大所帯である.
 IRBは,コンピュータシステム,ネットワークの維持などの研究支援活動や,データベースの配布,問い合わせへの対応などの対外活動を担当している.CBBは,先端的な計算生物学理論生物学の研究を行っている.ゲノム情報の比較解析などでよい成果を発表している.このセンターは,バイオの研究者一般を対象としており,産業向けの活動は特にない.データベースやソフトウェアなどの利用法の問い合わせには,相談員が応じている.
 生体分子の構造データを収集・管理している国際的データベースであるProtein Data Bank (PDB) は,1999年5月までは,1971年に誕生して以来Brookhaven National Laboratory (BNL)が管理・運営を継続してきた.しかし,1999年6月から,Rutgers大学,San Diego Supercomupter Center (SDSC), National Institute of Standards and Technology (NIST) の3者が協力して運営するResearch Collaboration for Structural Bioinformatics (RCSB)という組織が,BNLに替わって管理・運営を開始した.このデータベース維持のため,RCSBはNational Science Foundation (NSF)から1千万ドル,5年間のグラントをもらい,Rutgers に13名,SDSC に11名, NIST に8名,総勢32名の規模で,プロジェクトを進めている.このデータベース運営の最も大きな特徴は,Rutgers大学,SDSC,NISTという3つの部署に作業を分担したことにある.具体的には,Rutgers大学においてデータの受理と提出されたデータの編集を行い,SDSCにおいてデータの統合化と配付を行い,NISTはデータベース全体の監督と公文書化の作業を行っている.
 上記したPDBデータベース運営の分業化は,生物系だけでなく他の分野の理学データベースでも見習うべき点があると思われる.すわなち,理学データベースにおいて欠かせない,理学の専門家によるデータのreviewing と,情報科学の専門家によるコンピュータとネットワークによるデータベース管理・配付とを,それぞれの専門家集団がいる場所に分けてしまっている点である.現在,日本国内では,このような協力体制によって運営されているデータベースは,少なくとも生物学関連においては存在しない.そのため,各データベースの管理・運営にあたっては,規模の大小を問わず,データの質が理解できる専門家,大きな計算機資源,計算機管理のための専門家を全て自前で揃える必要があった.作業の分業化が日本国内で実現できる可能性としては,各大学に置かれている「大型計算機センター」あるいは科学技術振興事業団その他の公的な計算機資源を備えた組織にある設備と人員を利用して,ちょうどUCSDのスパコン・センターの運営のように,いろいろな理学データベースの出口部分にあって,管理・データ配付を行ってもらうことであろう.その一方,理学の専門家は,Rutgers大学が行っているように,データベースの入り口部分を受け持って,正確なデータを受け付け,収集することを継続する.このようにすれば,それぞれの理学データベース毎に多くの人員とハードウェアを多重に配置することなく,高度な内容のデータベースを管理・運営することが比較的容易になると思われる.
 生物学領域の特に大規模なデータベースは,歴史的な経緯もあって,強い国際的な協力によって運営されているものが多い.ゲノムデータは,バクテリア以外では,国際的に分業して解析されており,日本が分担して解析した遺伝子データを管理する部所は,同時に他の国々で解析された遺伝子データを公開している.また,分子生物学・生化学・生物物理学分野における国際蛋白情報データベース(JIPID)は米国NBRF のPIR およびドイツMax Planck Institute の MIPSと共同関係にあり,遺伝学研究所のDDBJ はヨーロッパのEBI(European Bioinformatics Institute)および米国のGenBankと協力している.また,蛋白質立体構造データ(PDB)は米国ラトガース大学と協力して,データ受付・編集・公開を行っている.

(3)  生物学データベースの利用
 以下では,生物学領域におけるデータの種類・量,データの登録・公開,データの利用のされかた,データベース管理,国際協力,に関して現状と問題点とを述べ,最近の進展状況と将来の方向性を考える.
(3.1) データの種類・量・仕様
(a)生物種の系統/変異株等のデータ: ウィルス,大腸菌等のバクテリア,酵母,藻類,農作物,食物系の植物,シロイズナズナ,アサガオ,線虫,昆虫,魚,両生類,マウス等,様々な生物種の系統について,それらの生物学的特性や所在情報に関するデータベースが作成され,インターネットで公開されている.このうち,微生物,酵母,シロイズナズナ,イネ,線虫,ショウジョウバエ,ゼブラフィッシュ等は,同時にゲノム解析も進んでいる.  各データベースは全てディジタル化されており,1件およそ1KBから数KBのフラット・ファイル形式が多く,生物種の識別用の画像データが添付されている場合もある.
 各データベースは,1,000 件ほどから10,000件ほど蓄積している.
(b) ゲノム(遺伝子)・データ: バクテリア,細胞性粘菌,酵母,コムギ,シロイズナズナ,イネ,線虫,ショウジョウバエ,ゼブラフィッシュ,マウス,ヒト等,ゲノム・プロジェクトが進展している種の遺伝子情報が,インターネット上に公開されている.国際協力によって行われている事業が多い.
 各データベースは全てディジタル化されており,解析が終了したもののゲノムサイズは,最小のもので0.6 x 106 塩基( 0.6 Mb)(1塩基(base, bと略して書かれる))が1バイト程度の情報量),大腸菌で4.6Mb,酵母で 12.1Mb,線虫で 97Mbである.人では3 Gbと言われている.今後,同一生物種の中の個体毎による多様性,いわゆる SNPs (single nucleotide polymorphism) のデータも,大量に発生するものと思われる.
 もとのデータそのものは,4種類の塩基の配列(A,T,G,Cというアルファベットの4文字の並び)であり,フラットファイルでも記述されるが,遺伝子に対応する部位と,それに付加した構造,機能等さまざまな付加情報がリンクされており,また各データベースで検索も行える.さらに大きな国際的機関では,Sybaseなどのリレーショナル・データベースで管理している場合もある.
(c) 分子生物学・生化学・生物物理学データ: 生体分子に関するデータベースであり,生体分子(水溶性および膜タンパク質・核酸・脂質等)の名称,化学構造,立体構造,物理化学性質,生理機能,プロテオーム情報等に分かれて,多くのデータベースが構築・公開されている.また,関連する文献データベースも多い.分子構造としては,DNA塩基配列やタンパク質のアミノ酸配列等,ゲノム情報と強い関連を持つものが多い.また,物理化学性質は,対象とする生体分子に対する各種分光実験データや熱力学実験データなど,化学領域のデータベースとも関連する.国際協力として行われている事業が多い.
 公開されているデータベースは,全てディジタル化されているが,分光学データや熱力学データ等は,文献に発表されたままで未だにデータベースとして登録されていないものも多く残されている.
 化学構造のデータは,ゲノム情報と同様にディスクリートな配列情報であり,最もきなDNAデータバンクの情報で,およそ10GBのサイズである.生体分子の立体構造データは,アナログ量を数値化したものだが精度は高々8桁ほどであり,1件あたり大きなもので1MB程度である.現在約1万件ほどであり,総計約10GBのサイズである.
 オリジナル・データはほとんどがフラットファイルであるが,検索機能や他のデータベースとのリンクなどのサービスが行われており,リレーショナル・データベースとして管理されている場合もある.
(d)  態・環境生物学データ: 環境庁付属生物多様性センターが,5年毎に実施されているさまざまな生態調査の結果を,インターネット上で,画像も含んで公開している.
 多くの結果がディジタル化されてインターネットでアクセスできる.
 結果の集計・解析に当たり「基準地域メッシュ」が用いられているが,これは,「標準地域メッシュ・システム(昭48.7.12 行政管理庁告示第143号「統計に用いる標準地域メッシュ及び標準地域メッシュコード」)に基づくもので,一定の経線,緯線で地域を網の目状に区画する方法であり,第1次地域区画,第2次地域区画,第3次地域区画の順に日本の地域を細かく分割して,結果の集計・解析が行われる.この第3次地域区画のことを「基準地域メッシュ」あるいは「3次メッシュ」と呼び,約1Km四方の区画に対応し,全国では総計386,555の区画となる.この区画毎に,さまざまな生物種(約2500種)の生態状況の調査結果がデータベース化されている.

(3.2) データの登録・公開
系統や変異株データなどの分類学および分子生物学・生化学の分野においては,以前から,新たな発見は,peer review による原著論文とデータベースへの登録とセットになって行われてきた.特にDNA塩基配列情報やアミノ酸配列情報は,ディジタル化が早くから進み,論文発表に際して,ディジタル化した国際データベース組織へ既に登録していることが条件とされ,その受付番号を添付しないと論文を受理しないことが国際的に共通の進め方となっている.生体分子の立体構造データも,近年この方式を取り入れ,ほとんどの国際雑誌は,立体構造データベースへの登録と公開を,論文受理のための必要条件としており,このことが,データベース量の急増にも結びつき,新たな発展につながっている.立体構造データベースでは,以前は,登録から公開までに1年間ほどの猶予期間が登録者の権利として認められており,その間に論文の受理を終了し,自身のデータから展開できる別の研究を開始する権利などが保護されていた.現在では,この期間を短縮し,論文が受理された段階で直ちに公開する方向にある.ゲノム・データも,これらの流れに沿って,論文発表とほぼ同時期に公開されているが,酵母ゲノムの場合など,原著論文の発表より先にデータベースにオリジナル・データが公開される例もある.このように,生物学領域におけるデータ公開の問題は,解決されてきた方向にある.しかし,イネ,家畜,ホヤ等の個別の生物種で,研究者(グループ)や研究機関によってかなりの規模で構築されているEST(Expressed Sequence Tags)データベースが,一般には公開されていないものが未確認ではあるが相当数存在する.これは,学術論文として発表されない限り研究の成果が評価されないことによると考えられる.また,最近,アメリカでは私企業がゲノム解析を進めており,その結果を発表しない場合,あるいは契約先の企業のみに公開する例も起こり始めている.

(3.3) データの利用のされかた
 生物学領域におけるデータベースは,新たなもの(種・分子・遺伝子)の発見,生体分子の物理化学量,環境・自然との相互作用調査等の結果が,分類・登録される.そのため,主に,以下のような利用のされかたがなされている.
(a) 新たに発見されたものが,真に新たなものかどうかの検索作業.新たでなかった場合には,論文の価値が下がり,時には受理されず,発表できない場合さえある.
(b) 新たな場合には,その類縁物(ホモログ)が従来のデータベースに既に登録されているかどうかの検索作業.類縁物がないと,論文の価値が上がるため.
(c) 特にDNA配列データやゲノムデータの場合,新たに解析されたデータの意味が不明な場合も多い.その場合,その対象の配列・遺伝子が何かを知るために,データベース中のデータに総当たりで検索し,類縁物を求めることが必須である.これが明確な場合には,その研究の価値が上がり,配列に対して特許を取ることさえ可能である.
(d) データベースに登録されているデータの統計的解析から,統一的描像や原理を抽出する作業.未だにネットワークがそれほど高速でないため,この作業では,各研究者が,自分の研究サイトのコンピュータにデータベースあるいはその一部をダウンロードして行う場合が多い.将来,高速ネットワークの利用が可能になれば,いちいちダウンロードせずに行えるようになろう.
(e) データベースのデータをコンピュータに学習させ,ルールを抽出して,客観的に予測を行わせる作業.この作業は,ニューラルネットワーク等新しい情報科学的手法の開発と同期し,データ量が大量になって精度が上がった結果として,初めて現実的なものとなってきた.この作業でも,各研究者がデータベースあるいはその一部をダウンロードして行う場合が多い.
(f) 複数のデータベースに登録されているデータの横断的解析から,新しい統一的原理を抽出する作業.ゲノム・データは,環境,個体のレベルから生体分子のレベルまで,共通のベースとなっている.既に各種データベースは,ゲノム・データとリンクをとり始めており,複数データベースの横断的解析から,新しい科学の展開がおこることが期待されている.
(g) 既に解析されている関連するデータおよび出版されている文献の検索作業.
(h) 様々な生物種の系統についての生物学的特性や所在情報に関するデータベースは,生物学研究における素材の選定等に対して極めて有用である.

(3.4) データベース管理
 大規模なデータベースは,日本国内で比較的限定された部所(主に各省庁の国立研究所,大学の附置研究所)に集中されて管理されている.学会がデータベースを管理している所もある.一方,ある生物種に特化した比較的小規模なデータベースは,大学や研究所の講座単位で管理されている場合が多い.
 東京大学医科学研究所,京都大学化学研究所,国立遺伝学研究所,大阪大学蛋白質研究所,科学技術振興事業団,国際蛋白データベース,蛋白質研究奨励会等が,大きなデータベースやネットワークに関係している機関であり,送られてきた各データに対して,国際的なAccessioin numberを付けて登録・公開作業(WWW,電子メール,Anonymous FTP,専用クライアントによる利用)を行っている.これらの作業のため,例えば国立遺伝学研究所のDDBJ (DNA Data Base of Japan) では,数十名のスタッフがデータベースの管理に当たっているが,スタッフの数が少ない所も多い.

(4)  生物学データベースの問題点
(4.1) データベース管理の基本的な体制
 恒常的に維持できる組織が必要である.期限つきのプロジェクトでは,たとえ10年程度の長いものでも,プロジェクト終了時に同時にデータベースをそこで終了するわけにはいかない.このデータベースの特殊性を理解し,国家の資産として維持・管理する体制が,基本的に必要であり,今後の生物学の展開に対応するためには情報インフラストラクチャーの整備が不可欠である.

(4.2) 人材の確保
 理学データベースは,その内容の専門性と利用方法の特殊性のため,データベースの設計と公開・利用のしかたに関しては,生物学の専門家・研究者が方針を立てる必要があり,また日常的なデータ管理に関しても生物学の専門的視点からのデータ編集,データ入力等が頻繁に必要とされる.一方で,データベース運用,プログラミング等を円滑に行うための,コンピュータ技術者も必須である.最近では,Web site への不正アクセスによってデータベースが損傷を受けることもあるが,生物学の専門家ではこれらの攻撃への迅速な対処が困難であり,コンピュータ技術者による日常的な保守体制が必要なことは明白である.このように,理学データベースを管理するマンパワーとして,科学者とコンピュータ技術者の双方が協力する体制を整える必要がある.現在,理学データベースを維持・管理している部所では,特にコンピュータ技術者を恒常的に雇用することが困難な体制となっている.そのため,データベース管理を行っている所では,大きな機関でも小さな部所でも,研究者は2足のわらじをはき,自らの研究時間を削って対処しているのが実状であり,研究の遅滞を招きかねず,国家的な研究推進において損失となっている.

(4.3) 人材の育成と配置
これまで,生物学では異なる学問領域とされていた微生物,植物,動物,医科学が,ゲノム情報という接点によって,大きく統合され,展開しつつある.また,そこから生まれる学問も,情報科学はもとより,物理学,化学,農学,薬学,医学など,多くの異なる既存の他の学問領域と相互に関連した学際的な特徴が,ますます強くなりつつある.これらの状況は,ネットワーク化によってさらに加速されると予想される. しかしながら,現在の大学および大学院における高等教育では,各学問の細分化が進み,高等学校の初年級から生物と物理の分離がむしろ以前よりも進み,全く生物学の知識のない物理学の学生や,逆に全く物理学を知らない生物学の学生が生まれている.また,情報科学の教育にしても,コンピュータの利用法程度の指導はあっても,プログラミングやデータベース構築の教育は,情報科学の専門科目としてのみ存在し,広く多くの理学の学生に対しては行われていない.
 さらに,多くの理学の研究者にとっては,ネットワーク化に対処するためには情報科学を多かれ少なかれ学ぶ必要があり,それまでの各研究者の専門とは異なる知識と経験を必要とする.しかし,そのための教育機関・システムは国内には皆無であり,メーカーの主催する講習会に出席したり,自分の研究室の若い学生やスタッフから学ぶか,あるいは全く学ぶことを放棄してしまっているのが実情である.
 このように,学問の学際化に適応できる学生を育てる教育を行うためのシステムと,理学の専門家に対してネットワーク化に対処できるための情報科学を教えるシステムとを整備し,実施することが急務である.

(4.4) 予算
 最近の科学予算は大型化してはいるが,プロジェクト指向が強く,一定の期間で終了することを前提としているものが多い.現在,運営・維持されているデータベースの多くが,これらのプロジェクト予算に依存している.一方,データベースは,ある時点でデータがなくなって終了するというものではなく,世界中に利用者がいるかぎりは維持・運営する国際的な義務が生じる.また,データが加速度的に増加するため,年ごとに大型化し,その維持に必要とされるコンピュータ経費も増加せざるをえない.また,上記したマンパワーのための人件費も,現状では,単に金額が不足しているだけでなく,その支払を行う予算項目すらないことも多い.さらに,後述するように,データベース運営のための国際協力が広がっており,そのための海外出張費も必要とされる.このようなデータベースの特殊性を理解し,データベースのための予算を,その総額と利用しやすさとを考慮し,長期的な視点で確保していく必要がある.

(4.5) 情報科学の専門家と研究者の協力関係:
 理学データベースを維持・管理する生物学の専門家・研究者は,必ずしも情報科学の専門家と交流しているわけではなく,技術のニーズがうまく伝わっていない.例えば,文献から必要とされる情報をコンピュータに自動的に抽出する手法が開発できれば,現在,書類情報として図書館等に眠っているデータは,短期間で安価にディジタル化され,データベースとして公開されることが可能となる.しかし,このような技術開発のニーズは,必ずしも情報処理の専門家に伝わっていない.また,データベースのフォーマットやデータの標準化の決定にも,情報科学の専門家のアドバイスは重要とされるが,必ずしも交流は盛んでない.そのため,市販の高価なリレーショナル・データベースを購入せざるをえないことも多い.さらに,データベース管理のための人材の教育についても,情報科学の専門家との密接な協力体制が必要とされる.

(4.6) データベース構築・維持・管理に対する社会的な評価:
 データベースの重要性は,最近認められつつあるが,その構築・維持・管理を行っている生物学の研究者の業績に対する,その学問領域の研究者集団からの評価は,依然として高くない.特に,大学の教官に対する業績評価は,原著論文を中心としてなされているため,現状では,研究を別途に行って論文を発表しながら,データベースも運営するという状況が続いている.優秀な人材によって,質の高いデータベースを構築・維持・管理していくためにも,データベース構築・運営に対する一般社会および研究者の社会の評価を高める必要がある.

(5)  最近の進展状況と将来の方向性
(5.1) 現在,アメリカのNIHを中心に,電子出版(electronic publication)に関する議論が盛んになっている.マイクロアレイやDNAチップといわれる新技術により,遺伝子発現プロフィールやSNP(Single Nucleotide Polymorphism: 単一塩基置換多型)など超大量の画像データベース(bit data)がでてきており,今までとはもう一段違う意味で印刷出版(print publication)の意義が薄れてきているのである.実際,print publicationを全廃し,すべてelectronic publicationにしてしまおうという動きをNIHやその傘下のNCBIが具体的にみせてきている.print publicationを全廃するには,研究者が,良い雑誌に出版したいという意識上の障壁と,商業出版社の存続の問題だけだという割り切り方もある.ことに,上記の各種データを考えると,生命科学においてelectronic publicationが一気に進む可能性もあり,その際の理学データベースや理学ネットワークの価値は,現状を遙かに超えるものとなろう.
 一方,データベースがコンピュータシミュレーションと一体化し,アニメーションのような動的な画像データベースが,いろいろな生物階層(細胞,組織,器官,個体など)における生命現象のシミュレーションモデルとして登場しようとしている.その意味において,ネットワークにおけるトラフィックがすぐに飛躍的に増大することは,目に見えている.また,現在,データベースの統計的解析や検索を行う作業は,データ量が莫大なため,各データベースを管理している機関のコンピュータで行うか,データをあらかじめダウンロードして行う方式を取らざるを得ない.高速ネットワークが実現すれば,直接データベースの膨大なデータにアクセスしながら解析を行うような,新しい方式の研究形態も可能となろう.
 このように,理学ネットワークのインフラが,特に生命科学において,即対応できるようにしておくことは,極めて重要だと思われる.

(5.2) データベースのありかた
 理学データベースは公開を前提とすることが,今後も重要である.データベースとして公開することでプライオリティが保証されるのであれば,外部非公開の多くのゲノムデータベースも公開すると思われる.用語・書式等はできるだけデータベース間で統一規格を採用することが望ましい.たとえば,DAD, PIR, Swiss Protのblast検索結果では,表示されるdescriptionの項目と順序が違っていて,これは計算機による結果の整理に大変不都合である.
生物学のデータベースには,DNAやタンパク質といった情報高分子を扱う大規模で緊急度の高いもの(従って国家的大型予算が考慮されてしかるべきもの)と,生物材料,マニュアル,変異株等を扱う比較的小規模のものとがあり,両者には異なった対応が必要とされていると考えられる.大規模なデータベースには,半永久的な運営がなされ,データ収集・配布に関する国際的協力が行われる義務が生じる.また,その公的な性格から,非営利である必要性がある.膨大な量のデータを管理し,ネットワークを通じて配布できるための,強力な計算機資源(高速計算機,高速ネットワーク,大量のディスク・スペース)も必須である.さらに,理学データベースの質を維持するためには,理学の各分野の専門家がデータの内容を監視する必要があり,また, 情報科学の専門家によるコンピュータとネットワークによるデータベース管理も必要である.日々のデータ入力作業や,データ提供者とのやりとりのための事務等,専門的知識を要しないコンピュータ作業・事務作業用の要員も必要とされる.小規模データベースは,主に,各研究者が自らの問題意識に基づいて個別に作成するものだが,それらが分野全体の研究者に有効に利用されるためには,それらデータベースを統合した情報提供サービスが望まれる.たとえば,GenomeNetのインデックスページにあるGenome Databases in Japanに,大規模データベースも小規模データベースもリストが作成されており,リンクしてあるというようなイメージのものができていれば良い.

(5.3) データベース構築体制
 データベース構築は研究の推進上,データの創出に勝るとも劣らない重要性を持っているという認識のもとに,予算的支援が行われるべきである.費目として賃金・謝金のみでなく,ハードウエア設置や人件費を十分考慮すべきである.とりわけデータベース立ち上げの段階ではデータ内容に関する専門的知識が要求されるため,研究者が深く関わることが必須である.従って研究活動の一として考慮し,評価される体制が作られるべきである.
 生物関係ではデータベースのカテゴリーはそれほど多様にはならないと考えられるので,各カテゴリーについて利用できる基本的枠組みが用意されていればデータベース構築に伴う労力や困難さが軽減される.たとえば,データベース構築支援機関を設置し,そこに問い合わせることによって同一カテゴリーデータベースの枠組みを移植するなどの提案がもらえるようにする.これは受益者負担でも十分有意義だと思われる.関連ソフトウエア,SE派遣会社等の登録や情報提供も可能であろう.大学においてはLANの構築・管理体制そのものが立ち後れているため,データネットワークの整備上重大な障害になっていることを考慮し,LAN管理体制への予算的支援が早急に行われるべきであるこれはセキュリティ対策を含むものでもある.大学のキャンパス内にある機関では,例え高速ネットワーク回線を新たに利用するための予算がついても,内部のネットワーク運営の公平化の原則によって,教育部門と同一の回線を使わざるをえず,学生の情報学演習時には,アクセスが著しく遅延することが日常化している.
  これらの問題点を解決していくため,国内の理学データベース構築・管理をスーパバイズする機関の設置が望まれる.

(5.4) 情報科学技術分野の専門的人材の育成
 情報科学は,もともと数学や電子工学を基礎として発展してきた.また,基本的にはより早く,より大量のデータを効率よく扱うコンピュータ開発のための研究といったことが重要な課題であった.しかしながら,最近では社会的な革命基盤としての情報科学というものが注目されている.その一つが,データベースおよびネットワークの併用による情報流通革命である.この情報流通革命は生産様式や電子商取引といった応用もあるが,学術情報の流通はその基盤的な応用分野となっている.
 最近の5年間においては電子化された情報が爆発的に増加しており,コンピュータのハードウェアの発展やインターネット,移動通信技術の発展,さらに二次記憶,三次記憶などに対する記憶容量の増大といったこととともに,学術情報流通を含む情報科学分野にも大きな影響を与えつつある.したがって,データベース構築およびそれを有効利用するためのネットワーク技術に関して,専門的人材の育成は情報科学の進展にとっても重要な課題と言える.データベースは単なるデータの倉庫ではなく,それを活用して新しいデータを生産する手段でもあり,より機能の高いシステムを作るためには情報工学的な素養が不可欠である.

ネットワークの障害はハード,ソフト,クラッカーの侵入といった多種の要因があり,幅広い知識を活用できる専門家でなければ対処できない.また,これらの分野の技術進歩はめざましく,新しい技術をどんどん吸収できる柔軟性も必要とされる.日本で現在問題となっているのは,コンピューターの分野の研究者数が少なく,また大学院の学生数もかなり少ないのにもかかわらず,分野が大きく広がりつつある点である.たとえば,情報関係のカリキュラムでは現在のところアメリカの2つの学会(ACMとIEEE)が協力して決めた91年のものが世界的な標準となっており,ここでは基礎分野を9つの柱で整理している.ところがこの間の進歩でこのカリキュラムが古くなりつつあるため現在新しいカリキュラムが検討されており,そこでは一部の分野を統合整理したにもかかわらず基礎分野の数が13になっている.これはすでに検討が始まってはいるが,ボランティアが自由に議論に参加できるようにして2001年には決定される予定となっている.これは教育に必要な分野数で,研究面では基礎教育とは関係しない先端分野も大きく広がりつつある.大学の研究者としては,従来の分野をカバーするだけではなく,新しい分野に挑戦していかなければいけないこととなる.このために,研究者としてはより新しい分野にどうしても注目することとなり,基本的に重要な分野でも研究のための人材が払底している状況となっている.
今までは,アメリカと日本の大学における情報関係の学生数を比較して,日本の方がはるかに少ないという風な議論が行われてきたが,最近では東アジアや東南アジア諸国に比べても比率が少なくなっていく現象が観察されている.すなわち,東南アジアの諸国はコンピューターを今後の産業の中心と据えるべく努力しており,台湾とかシンガポールでは特にその専門教育における比重が高い.例えば,シンガポールでは小学校の授業の20%がコンピューターに関連していると言われており,将来に向けた人材育成を行っている.中国の科学技術関係の最高峰と言われる清華大学では,コンピューター専門の大学院学生の数は400人であり,日本の大学に比べて,はるかに多い人材育成を行っている.アメリカではさらに必要に応じて外国から人材を供給できるという自由度がある.

データベース分野に関しても,基本的なデータベースについては既に研究分野としての非常にチャレンジングな面白さというのが減りつつあると考え,より新しい分野に移る研究者も見らうけられるが,知識交流や将来のネットワーク社会における基盤技術として非常に重要と言える.基本システムであるデータベースシステム自体は特定のビジネスに向いた定形データを対象にすることによって,データの持つ意味的な一貫性制約を集中的に管理できる等ということで非常に大きな成功をおさめてきた.また,情報検索システムも幅広く利用され,最近ではそれが電子図書館といった方向に進みつつある.また,銀行のオンラインやクレジットカード等,非常に信頼性が高い応用に対してトランザクション処理という概念が出され,これについても非常に成功している.データを扱う分野が増えることによって,これらのシステムでは扱えないような情報が大幅に増えているのも事実である.また,計算能力やデータ容量の増大といった技術的進歩に支えられて,従来不可能であったようなことが可能になってゆく背景がある.

アメリカでは複数の大学が競争する形で電子図書館のプロジェクトを進めており,その成果の中には非常に先進的なものも少なくない.従来のデータベースは選ばれたデータを選択し,それを定型的に蓄えるといったものが中心であったが,ネットワーク時代のデータベースは,データ自身を大量に蓄え,逆に利用するときに選択するといったことになってきている.また,形式も非常に整ったものではなく,例えばXMLを用いた場合の様に構造がデータの中に埋め込まれたようなものである.このために,従来のデータベースシステムそのものの知識だけでは不十分であることもある.また,ネットワーク上のデータは独立性が高く簡単に統合できない点や,誰でも発信できるために信頼度も非常に少ないものが混在している点に問題がある.このために,現状のデータベースシステムではなく,ネットワークに適したデータベースシステムといったことも非常に重要となっている.このためにも幅広い知識を持った専門的な人材の育成は不可欠である.ネットワーク関係も深刻な事態になっている.ネットワークでは,例えば,ハードウェア,ソフトウェアの障害や外部からの進入などといったことを原因としてネットワークトラブルが起こる.このため,ソフトウェアだけでない非常に幅の広い専門知識が要求される.従って,例えば各企業や大学などでもネットワークの専門家不足が大きな問題となっているのが現状である.大学における一つの問題は,ネットワークの専門家であるために種々の事故対策に時間をとられ,論文を書く時間がなく結局昇進から取り残される,といった事態が生じているためである.従ってネットワーク関係の人材をいかに育成するかも,大学では非常に重要な問題である.現在のひとつの問題は,若い人たちがワークステーションからどんどん使い易いPCに移行しつつあることである.しかしながら,PCではネットワーク関係のセキュリティーなどについて十分な対策がとられていない.このため,ネットワークの専門家は,UNIXなどの知識が必要とされているが,そのような人材が情報科学を専門とする学生の中でも比率がどんどん減りつつある.

ネットワークおよびデータベースは,医学部で言えば病院にあたるサービス部門に相当し,それらを普通の教育部門と同じような評価を行うといった点に問題がある,とも考えられている.
専門家の育成とともにその待遇についても考える必要にせまられているといえる.情報科学は,数学のように自由度が高いが,数学と異なり,周りの環境や応用面によって影響され,発展してきた要素が強い.このために,他の領域との情報交流がうまく進めば,また新しい分野を生み出していく可能性も期待される.データベース,ネットワーク分野は他分野との交流が深く,新しい学問分野の提案ができる可能性もある.このようにこの分野の人材育成は学術情報の総合的利用にとどまらず,より広い分野に大きな影響を与えると考えられる.