2024年ノーベル賞特集2 タンパク質の構造予測や設計を行うAIの開発者にノーベル化学賞

1.はじめに

 2024年のノーベル化学賞は、タンパク質の構造予測や新規タンパク質の設計を行う3人の米国のAI開発者に授与された。その内容や背景、意義等について考察する。

2.受賞者と研究内容について

 今回受賞したのはGoogle DeepMind社のデミス・ハサビス(Demis Hassabis)CEOと研究チームのジョン・ジャンパー(John Jumper)氏、それにワシントン大学のデビット・ベイカー(David Baker)氏である。
 受賞対象となったのは、ハサビス氏とジャンパー氏については「コンピュータを用いたタンパク質の構造予測」、ベイカー氏については「コンピュータを用いたタンパク質の設計」という功績によるものだった。

ベイカー氏(左)、ハサビス氏(中)、ジャンパー氏(右)(Nature誌HPより)

 3.AIによるタンパク質の構造予測

 まずハサビス氏とジャンパー氏の功績である、タンパク質の構造予測について述べる。その主要な成果については、過去のニューズレター(第8回 AIがタンパク質の構造の大部分を予測)でも紹介したが、ここでは経緯も含め簡単に述べる。

 タンパク質は20種類のアミノ酸がつながってできる分子である。それは折りたたまれて複雑な立体構造をとる。ただ、アミノ酸の並び方により、最も安定になるように、立体構造が決まってくる。
 立体構造が分かれば、タンパク質がどのような働きをするかの解明につながるため、立体構造を知ることはタンパク質の研究者にとっては極めて重要となる。だがそのためにはタンパク質を結晶化した上で、X線構造解析等の高度な手法で解析していかねばならず、大きな費用、時間、労力がかかる。
 もし、アミノ酸の並びだけから立体構造を精度よく予測することができれば、そのような手間を省略でき、研究者にとってはこの上ない福音となる。ということで、古くは1970年代からタンパク質の構造を予測する試みが行われてきた。

 当初、多くの研究者が用いたのは、分子を構成する原子や電子の1つ1つの動きを物理法則に従って計算し、最もエネルギーが低いものとなるようシミュレーションしていくものだった。しかしこの方法では、タンパク質の種類や大きさによっては計算量が爆発的に大きくなり、手に負えなかった。

 そうした予測技術の向上に向けて研究者のモチベーションを上げるため、1990年代から「タンパク質構造予測の批判的評価」(CASP)と呼ばれるコンペティションが隔年で開催されてきた。これには世界中からわれこそはと思う構造予測モデルを携えて研究者や技術者が参加した。
 それでも、なかなか良い予測モデルは開発されず、実験室での分析により既に分かっているタンパク質構造を100点とした場合、大部分の予測結果は40点を超えることはなかった。

 その頃、ハサビ氏が共同で創始者となっていたGoogle DeepMind社は、一から計算したり網羅的に調べたりする代わりに、AIを用いたディープラーニングという方法を取り入れた。これは、AIに従来の経験やデータを学習させることで、目的に合った最善のものを予測させる方法であり、それを用いて、アルファ碁等の優れたソフトウエアを開発していた。同社はこのディープラーニングの手法をタンパク質の立体予測に応用した。
 ジャンパー氏が中心となり、既に立体構造の分かっているタンパク質のデータを取り込み、学習させることで、AlphaFoldというソフトウエアを開発したのである。これを引っさげて2018年にCASPに出場した彼らは、いきなり優勝をさらった。

AlphaFoldにより予測されたビテロゲニン(卵生動物の有する卵黄タンパク質)の立体構造 (Nature誌HPより)

 さらにその後、彼らはAlphaFold2を開発した。AlphaFold2はさらに膨大な既知のタンパク質構造とアミノ酸配列のデータベースで学習させた。学習に際しては、X線結晶構造解析やクライオ電子顕微鏡などの手法で決定された20万以上のタンパク質構造を自由に利用できるリポジトリであるProtein Data Bankに大きく依存した。また配列上離れた場所にあるアミノ酸どうしが立体構造では近くにあるということを見つけるため、彼らはTransformerと呼ぶニューラルネットワークを用いたソフトウエアを開発し、利用した。

 こうしてAlphaFold2は、決定に数年かかっていたタンパク質の構造を、数十分で非常に精度よく予測できるようになった。そして2020年のCASPのコンテストではAlphaFold2のスコアは90を超えた。それにより予測された立体構想は、場合によっては画像化手法とほぼ同等の性能を発揮した。

 そして彼らは、これを用いてさまざまな種のタンパク質の立体構造予測を行い、公表した。その結果、予測されたタンパク質構造数は現在、なんと2億を超えている。

 なお現在、AlphaFold2の次のバージョンであるAlphaFold3が開発されている。それは、折りたたまれたタンパク質がDNAやRNAなどの他の分子とどのように結合し、相互作用するかも予測できるようになっている。このように、予測技術は急速な進展を続けている。

4.AIによるタンパク質の設計

 一方、ベイカー氏の功績は、タンパク質の設計に関するものだった。

 ベイカー氏も当初はタンパク質の構造予測に取り組み、1990年代にRosettaと呼ばれるソフトウエアの開発を始めた。Google DeepMind社の2人よりもっと前の1998年からCASPに参加し、AlphaFoldが登場するまでは、同ソフトウエアは他のCASP参加者よりも優れた成績を収めることが多かった。

 しかしベイカー氏はその後、研究開発の方針を変えた。アミノ酸配列からタンパク質の構造や機能を予測するのではなく、逆に、タンパク質の特定の構造をコンピュータに入力し、そのような構造をとることができるようなアミノ酸配列を導けるようにソフトウエアを改造したのである。
 この方法だと、既存のタンパク質構造だけでなく、自然界に存在しない構造をもつタンパク質を新たに作り出すことができる。いわゆるタンパク質のデ・ノボ設計である。自然界に存在するタンパク質には限りがあるが、このようにタンパク質をゼロから設計できれば、無限に新しい機能をもつタンパク質を生み出すことができる。

 そうして、ベイカー氏のチームは2003年,複雑な構造をもつ人工タンパク質「Top7」の合成に初めて成功した。それはまさに、コンピュータがゼロから設計したものだった。
 彼らはそうして設計したタンパク質について、対応する塩基配列をもつDNAを合成して微生物に導入することにより、実際に作らせた。すると、設計どおり、まさに狙った構造をもつタンパク質が得られたのである。Top7は93個のアミノ酸からなる小さなタンパク質だったが、それまで合成された人工タンパク質の中では最大だった。特定の機能はなかったものの、αヘリックスやβシートといった、タンパク質を構成する基本的な構造を備えていた。

 ベイカー氏はその後、さまざまな機能を持つタンパク質の合成に成功した。インフルエンザの複数の株に対応できるペプチド、微生物の二酸化炭素を吸収する能力を高める酵素、身体全体に薬剤を届けることができる自己組織化分子ケージ等である。とりわけ、SARS-CoV-2のスパイクタンパク質に結合することで細胞への侵入を阻止するタンパク質の設計も行った。

 なお、人工タンパク質は,ベイカー氏がタンパク質の構造予測も研究していたからこそ生まれた。人工タンパク質の研究者は他にもいたが,彼らは望んだ構造をもつタンパク質を作製する手法を持っていなかったのである。
 その意味でタンパク質の構造予測とタンパク質の設計とは密接に関係している。ベイカー氏の作製したRoseTTAFoldAll-Atomは構造予測にも使用され、AIを使用して、核酸、金属、その他の成分と組み合わされたタンパク質の複雑な集合体構造をモデル化しているとのこと。

5.これらの研究の意義と今後

 今回の受賞者らの特徴として、オープンサイエンスのやり方をとっていることが挙げられる。Google DeepMind社は2021年、AlphaFold2の基礎コードを、学習に必要なデータとともに無料で公開した。AlphaFold3についても、当初は非公開かと思われていたが、今年末までにはモデルを公開する予定とのことである。

 またベイカー氏のグループも、Rosettaの基礎となるコードを公開し、他の科学者がソフトウエアを継続的に改良できるようにした。

 こうしてAIが生命科学の研究の世界にどんどん入り込んでくると、どうなっていくか。生命科学の研究は効率化するのは間違いない。だがそれにとどまらず、そもそも手作業、すなわち試験管を振るような実験を行わないでも、コンピュータの画面上で生命科学の実験が高精度でシミュレーションができるようになるかもしれない。すると、大掛かりな研究施設を作らないでも、パソコン1つで誰でも研究が行えるようになる可能性が拓けてくる。そのためにはこのようなソフトウエアやデータベースの共有化が今後もどんどん進んでいくことだと思われる。

 なお2021年、Google DeepMind社はアイソモーフィック・ラボを独立させ、AIツールを用いて新薬を設計した。世界中の製薬会社がこれと同じアプローチでがん、感染症、高血圧、肥満を標的にした新薬の研究開発を行っており、そうした成果が実用化される日も遠くないように思われる。

6.おわりに

 2024年のノーベル化学賞は、生命科学と密接に関係するものだった。

 このように生命科学のテーマがノーベル生理学・医学賞にとどまらず、他の賞での受賞が増えてくることは、今後大いに考えられる。物理法則や化学法則は既に大きなところが発見しつくされた感がある一方、生物も物理法則や化学法則に従うものの、生命の仕組みを解明するための物理や化学分野での技術開発は、まだまだ大きな世界が広がっていると思われるからである。

 あくまで著者の感想だが。今後の研究・技術の発展を期待したい。

参考文献

・C. Offord “Protein designer and structure solvers win chemistry Nobel”, (2024/10/9) Science HP  https://www.science.org/content/article/protein-designer-and-structure-solvers-win-chemistry-nobel

・E. Callaway “Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures”, (2024/10/9) Nature HP (https://www-nature-com.translate.goog/articles/d41586-024-03303-7?error=cookies_not_supported&code=246b982a-b148-4e30-88f5-1ad96d0da8a3&_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=sc

・出村政彬、遠藤智之「2024年ノーベル化学賞:タンパク質の設計と構造予測に貢献した3氏に」(2024/10/10)日経サイエンスHP (https://www.nikkei-science.com/?p=74092

ライフサイエンス振興財団嘱託研究員 佐藤真輔