氏    名  三 林  光 (みつばやし ひかる)

学位論文題目  マイクロアレイを用いた病理診断に有効な遺伝子抽出手法に関する
        研究

論文内容の要旨

 近年バイオインフォマティクスの技術の発達により,遺伝子から得られる情報を利用した研究が盛んに行なわれている。バイオインフォマティクス分野の研究の一つにマイクロアレイを用いた遺伝子発現差解析がある。マイクロアレイとは,ガラススライドまたはシリコン基盤上に数千から数万の DNAの断片(遺伝子)を高密度に集積して搭載したものであり,各遺伝子の活性度合いを示す発現量の情報が得られる。この発現量情報は,遺伝子の機能推定,新薬の開発,病理診断などに応用される。本研究ではこのうち病理診断に着目した。この分野では,遺伝子数が膨大であるため診断に使用する遺伝子を取捨選択し,診断に必要な遺伝子のみを抽出することが大きな問題の一つである。大量の遺伝子から用途に応じた少数の遺伝子セットを抽出することにより,正確な病理診断の実現やその処理の軽減,ある用途に特化した少数遺伝子のみを搭載した新しい DNAチップの開発などへの貢献が期待される。そこで,本研究では病理診断に有用な遺伝子の抽出に変数選択を利用した方法である,Forward variable (gene) selection method (FSM)を提案する。変数選択の方法自体特に目新しいものではないが,マイクロアレイのデータ解析への
適用例はほとんど見当たらず,平均や分散などの単純な統計値のみに基づき,複雑な計算を必要としない利点があるため,これを採用した。実験には 5つのマイクロアレイデータ(Leukemia(2セット),Breast cancer,Medulloblastoma,Colon cancer)を用いた。はじめに,一般的なマイクロアレイデータよりも小さなサイズのテストデータを用いて FSMの動作の検証をしたと
ころ,その処理が可能であることを確認した。しかし,はじめに作ったプログラムでは扱えるデータの量が少なく,計算速度が遅いなどの問題があったため,これを改良した。その結果,数千から一万を超える遺伝子を含む実際のマイクロアレイデータに対しても FSMが実行可能になった。このプログラムにより前述の5つのデータを使って従来法との判別精度の比較を行なったところ,Filter法との比較において FSMは比較法よりも少ない遺伝子数で誤識別率0を達成し,安定した判別精度を示した。また,Wrapper法との比較においても FSMは既存の結果よりも高い判別精度を示した。以上の実験により FSMは病理診断に有効な遺伝子を抽出できることを示した。

論文審査結果の要旨

 情報ネットワークの発達により扱うデータは肥大し続けている。それに対応すべく計算機処理能力は飛躍的に向上し,データ解析能力が大幅に向上している。そのような計算能力の向上に加えて,データの統計的構造や規則性を見出す適切な学習アルゴリズムの構築は,今もなお重要である。80年代の学習可能なニューラルネットワークの出現により,非線形近似に基づくデータ学習が確立され,ニューラルネットワークの学習が多くの応用分野において用いられてきた。しかしながら,限られたデータから汎化性のある学習結果を得ることは,現在でも研究課題として残っている。一般には,パラメータ数を制限することや過剰に近似しない学習手法,さらには,学習済みの予測器を組み合わせる手法が提案されている。予測器を組みわせる方法はアンサンブル学習法と呼ばれ,90年代に汎化性の良さが実験・理論の両面から支持されるようになった。本論文は,最近提案された指数型混合確率モデルに基づくアンサンブル学習を理論基盤として,アンサンブル学習における情報量最小化に基づく予測器の重み配分手法に具体的アルゴリズムを与え,計算機実験を通じてその有効性を検証したものである。
 本論文は全5章から構成されている。第1章は序論として,研究背景,研究目的および本論文の概要について,特にニューラルネットワークの学習の起源的研究から,アンサンブル学習における2つの重要な研究であるバギングとブースティングに至るまでの研究の系譜が述べられている。第2章では,ニューラルネットワークの概要が述べられている。第3章では,アンサンブル学習の概要が述べられており,バギングとブースティングについて,それぞれの詳細な特徴が述べられている。そして,本論文の基盤となる指数型混合確率モデルに基づくアンサンブル学習について,その定式化・解析的結果などの詳細が述べられている。そして,主要結果である重み正規化手法の提案と,有効性を確認するための数値実験と有効性の検証が行われている。第4章においては,提案手法を構造解析などの分野で行われている回折強度のみから実像を求める位相回復に応用し,その有効性を確認している。第5章では,結論と今後の課題が述べられている。
 これまでの体積による除算による正値の重みづけに対し,指数型混合確率モデルにおいては正負の値が混在する重みにおける正規化手法が必要とされる。本論文においては,符号を変えない新たな正規化手法を提案し,その解析的妥当性を示し,機械学習用データベースのデータを用いた計算機実験から実用的な有効性を確認するなど,多くの有用な工学的知見を与えている。さらには,情報工学から物質構造解析の分野に視点を移し,今なお問題とされる位相問題にアンサンブル手法を適用し提案手法の有効性を検証している。
 本研究によって得られた知見は工学上十分な価値があり,情報工学の分野に寄与するところ大であるので,本論文は博士(工学)の学位論文に値すると認められる。