最終更新日:
マテリアルズ・インフォマティクスをゼロから学んで実装できるようになるまで【講座体験レポート】
1.はじめに
こんにちは、スキルアップAIの小林です。私は現在、DNAを材料としたものづくりの研究を行っています。
皆さんは「インフォマティクス」という言葉を耳にしたことがあるでしょうか?
インフォマティクスとは、情報学・情報処理・情報システム・情報科学といった分野の周辺ないし関連分野のことで、「バイオインフォマティクス」、「ケモインフォマティクス」、「マテリアルズ・インフォマティクス」の3つに大別されます。
その中でも特に「マテリアルズ・インフォマティクス」という分野が近年急速に注目されるようになってきました。この技術を用いることで、材料開発をする上で今までは経験や勘に頼っていた部分を大幅に解消し、より簡便化されることなどから大きな期待を集めています。
このような利点があることから、日本では2014年を皮切りに大手化学メーカーや大手鉄鋼メーカーがマテリアルズ・インフォマティクスに対して積極的に取り組み始めています。
本ブログでは、これから確実に伸びてくると予想できる技術「マテリアルズ・インフォマティクス」について体系的に学べる「マテリアルズ・インフォマティクス講座」を実際に受講して得られたことや感想を交えてレポートとしてお伝えします。
まずマテリアルズ・インフォマティクスについて体系的に知りたいという方は以下の記事をご覧ください。
※本記事の内容は個人で受講した感想に基づいて記載しています。
2.受講のきっかけ
私は以前からマテリアルズ・インフォマティクスという言葉を耳にしており「これは今後、社会で重要になっていくであろう」と認識していました。しかし、学問としての難しさがネックとなり、自身で勉強をする最初の一歩をなかなか踏み出せずにいました。現時点においても充実した参考書などがあまり存在せず、効率よく知識をキャッチアップして実務に活かしていくことが困難であるという状況は依然として変わっておりません。
また、私には将来データサイエンティストや機械学習エンジニアとして活躍したいという目標があります。就活サイトを閲覧していると、三菱ケミカルなどの化学業界最王手から MI-6 などのベンチャー企業といったさまざまな化学・素材メーカーで募集されているエンジニアの職種選択の一つに「マテリアルズ・インフォマティクス」という記載を目にする機会が多くなってきていることに気づきました。目標実現のためにこのような知識の習得は必須であると考えるようになりました。
そのような中で本講座の案内を見たとき「これは体系的に学習できる良い機会だ」 と思い、即決で受講することを決めました。
3.カリキュラム
本講座は、理学博士および東京大学名誉教授であり、またケモインフォマティクスやデータ駆動型化学を専門とする応用化学者でもある船津公人氏が監修しています。
講座の時間は合計約6.5時間で、オンライン(eラーニング形式)で受講できます。動画講義の他にノートブック演習もあるため、各章で学んだ知識を実践的に身に付けることができます。
カリキュラムは以下のようになっています。
- 第1章 マテリアルズ・インフォマティクス概論
- 第2章 化合物解析の基礎
- 第3章 化合物データの解析手法
- 第4章 化合物データの解析事例
- 第5章 グラフニューラルネットワーク
- 第6章 実験条件の提案
- 第7章 ベイズ最適化
- 第8章 マテリアルズ・インフォマティクスの事例
第1章では、マテリアルズ・インフォマティクスの歴史や現在の社会での動向を学びます。
第2章では、化合物データを扱うためのツールの特徴や化合物構造の表現方法などを学びます。
第3章では、マテリアルズ・インフォマティクスでよく用いられる解析手法について学びます。
第4章では、触媒性能の予測(化学)やアンタゴニスト(=生体内の受容体と結合するはずの神経伝達物質やホルモンの働きを阻害する物質)であるかの予測(生物)、体積弾性率(物理)などのさまざまな分野の実際の事例について、演習を通じて学びます。
第5〜7章では、第8章で紹介される大学や企業でのマテリアルズ・インフォマティクスを用いた実際の事例で利用されるグラフニューラルネットワークや実験計画法、ベイズ最適化などの手法を理論的な側面から詳しく学習していきます。
本講座を受講するために必要とされるスキルは、以下の講座修了相当の知識となっています。
また材料科学の基礎知識についても事前にある程度の知識を有していればその分学習がスムーズですが、動画内でも丁寧に用語の説明をしているため、専門が材料科学でない私でも理解できましたので心配は無用です。
4.目的に応じたさまざまな解析手法を理解し、演習を通じて実問題への適用イメージを掴める
本講座を通じて、上表に挙げられているようにマテリアルズ・インフォマティクスで用いられる解析手法には目的に応じてさまざまな手法があることを学びました。
私は、今まで機械学習やデータサイエンスの基礎知識を持っていても、これを具体的にどのようにマテリアルズ・インフォマティクスに応用すればいいのかがわからないといった高い壁にぶつかっていました。本講座では機械学習を用いた化合物データの解析事例を用いた演習を行うため、実際の問題に対して、線形回帰や主成分分析などの機械学習手法をどのようなプロセスで利用するか演習を通じて学習することができます。演習では、用意されたデータセットを用いて行っていきます。
実際に演習1の沸点の予測を行ってみました(下図参照)。演習では、RDKit(オープンソースのPythonライブラリ) などのツールを使います。このようなツールは今まで使ったことがありませんでしたが、今回実際に演習をしてみることで、最終的には自分でもツールを使って化合物構造の生成やさまざまな予測ができるようになりました。
5.実験条件の提案方法がわかるようになる
材料開発をする上で障害となるのが「コストがかかりすぎること」と感じている方は多いように思います。つまりサンプルが高価なためにあまり実験の試行回数を増やすことができず、多くのデータセットを用意するのは難しいということです。
私も以前はそのように考えていましたが、本講座を受講したことで考え方が大きく変わりました。
最適な材料を探索するためには「より短い時間かつ少ないコストで探索する方法論」を学習することが重要です。その方法論を学ぶことができるのが、第6章で扱う「実験計画法」や「応答局面法」です。一般的に、情報科学の手法は数学がベースとなっているため、式の変形などは専門書を読めば理解することができます。しかし、最終的にどのように応用すればよいのかわからなくなってしまうことも多いのが事実です。
本講座では、図などを用いて数学的にどのようなことを行っているのか詳しく解説してもらえます。また実験の流れや手順に関しても適宜スライドで解説されているため、何をどこで行って、どう使うのか頭の中で整理することができました。
さらに章の最後には演習が用意されているため、実際に実践することで理解を深めることができます。普段なら、理論的な側面は難しく数式を理解するのに時間がかかる私ですが、講義や演習を通じてすぐに理解することができました。
6.まとめ
私は本講座を通して「マテリアルズ・インフォマティクス」とはどのようなもので、何ができるかを理解することができました。さらに、演習を通じて実際に自分でも使えるスキルを身に付けることができました。
これからの時代、研究開発機器の自動化や知能化がさらに加速していくといわれています。受講前は「本講座を通じて得た知識やスキルが本当に自身の研究の役に立つのかが分からない」といった状態でした。しかし、学んでいく中でタンパク質を用いた分子レベル挙動を調べたり、アンタゴニストを調べるような手法は自身の研究でも活かす機会があるのではないかと考えています。
大切なのは、これらの知識やスキルを実際に自分の実験に取り入れて、研究活動を行うことではないでしょうか。
皆さんも本講座を通して、マテリアルズ・インフォマティクスを使いこなし、実験を効率的に行えるスキルを習得してみませんか。
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
公開日: