第8回 AIがタンパク質の構造の大部分を予測

 英国の「ディープマインド(DeepMind Technologies)」社は、AIを用いて予測した2億種類以上のタンパク質の構造データベースを公開した。これは既知のタンパク質のほぼ全てに相当し、生命科学の研究方法や創薬のプロセスを大きく変える可能性がある。

 ディープマインド社は米国アルファベット社(Google社の持ち株会社)傘下のAI企業で、数年前にはアルファ碁の開発により人間のチャンピオンを倒したことで名を馳せた。そして、今やそのターゲットは科学研究の世界に向けられている。

 本年7月28日、同社はAIソフト「アルファフォールド(AlphaFold)2」を用いて、既知のほぼ全てのタンパク質の数をカバーする、約100万の生物種の2億1,400万以上のタンパク質構造を予測することに成功したと発表した。それらが収められたDBは「アルファフォールド・タンパク質構造データベース」と命名されている。これは、タンパク質の大規模DBを保有する欧州分子生物学研究所傘下の欧州バイオインフォマティックス研究所(EMBL-EBI)と共同で構築されたものである。

 このDBにより、研究者は「グーグルでキーワード検索するのと同じくらい簡単に」タンパク質の立体構造を調べられる(同社CEOハサビス氏の言葉)。実際に下記のホームページにアクセスし、生物名、遺伝子名等を入れることで予測構造がすぐに表示される。

アルファフォールド・タンパク質構造予測データベースの検索ページ(https://alphafold.ebi.ac.uk/
アルファフォールドにより予測されたビテロゲニン(卵生動物の有する卵黄タンパク質)の立体構造  Nature誌のHPより引用

 同社は既に2020年より同DBの無料提供を開始していたが、昨年にはアルファフォールドのソースコード(プログラムの設計図)を公開し、その際に、ヒト、マウス等広く研究されている19の生物種について、35万を超えるタンパク質の構造を同DBで初めて公開した。こうした公開DBやソースコードを用いることにより、既に、ミツバチの健康に影響を与えるタンパク質の解明や、効果的なマラリアワクチンの開発といった成果につながってきた。今回はこれが一層拡張されたわけであり、さらなる研究の進展に役立ちそうである。

 従来、科学者はタンパク質の構造を解明するのに、X線結晶構造解析等による時間と費用のかかる実験方法を使用する必要があった。ヒトゲノム解読プロジェクト(1990~2003年)により、ヒトの約30億個の塩基配列が解読されて大きな成果を挙げたことから、ポストゲノム(ヒトゲノム解読の後の大規模プロジェクト)として、より生命の機能に直結するタンパク質の構造の網羅的解明が必要だとされた。そしてわが国では2002年度から5年間「タンパク3000プロジェクト」が行われ、タンパク質の結晶化とX線構造結晶解析、及び核磁気共鳴(NMR)による構造解析によって、タンパク質の基本構造(パターン)の決定がなされた。さらに2007年度より5年間、解明困難な重要タンパク質を対象に「ターゲットタンパク研究プログラム」が行われた。米国でも同様なプロジェクトが行われ、競争の形で次々にタンパク質の構造が解明された。これらは一定の成果をもたらしたが、巨額の資金、長い時間、多くの労力を要した。また多くの構造解析の専門家が養成されたものの、その後働き口がなかなか見つからず、キャリアパスが形成しにくいという批判もあった。

 なお近年、クライオ電子顕微鏡が開発されたことから、試料を染色せず、タンパク質溶液を瞬間凍結することで固定して試料を観察することにより、いわゆる水を含んだより生体内に近い状態でタンパク質構造を従来よりはるかに容易に解明できるようになった。ただ、同顕微鏡は一台数億円と高価で、研究者が手軽な研究手法として用いるにはさらなる研究開発が必要だと思われる。

 これに対し、今回のDBでは、そうした大型のプロジェクトで得られたものよりはるかに多数のタンパク質について、コンピュータ上で瞬時に構造解析の予測が示されることになるわけである。

 ただ、まだこの予測は発展途上のところがある。EMBL-EBIによると、これら2億を超える予測のうち、実験で決定された構造と同様に非常に正確なものは約35%であり、約45%は通常の解析に使用するのに問題ない程度に正確であるとのことだが、残りについては、その精度は保証されていない。また、タンパク質の構造が、突然変異や遺伝子多型によってどのように変化するかを解明することが重要であることが多いが、それは本DBでは対応できないとされている。さらに、進化に関する情報が少ない希少なタンパク質については、予測はそれほど正確ではないかもしれないとのことである。

 しかし、この分野は急速に発展しており、今後はAIの予測精度はますます向上すると予測できる。そして、タンパク質の変異を正確にモデル化するツール等も近いうちに登場する可能性もある。

 従来はタンパク質の構造予測は非常に時間がかかり、それを行っただけで研究者は一つの仕事をした気になっていた。もし、構造予測の段階までを行ってくれるツールがあれば、研究者の時間を大幅に節約し、さらに進んだことに傾注することができる。ただ、いったいどこまでAIが実験の手間を省き、研究者の代替になるだろうか。

 ディープマインド社は「デジタル生物学」と称し、AIを用いることにより、タンパク質の挙動や他のタンパク質との相互作用等の生命科学分野の各種課題に取り組んでいく意向である。また、米国ワシントン大学は本年7月、アルファフォールドの手法を参考に開発した「RoseTTAFold」という構造解析AIを用いて、複数のタンパク質の相互作用や集合体のモデルを予測し、Science誌で発表した。こうしたAI同士の競争により、タンパク質の一層進んだ構造・挙動・作用予測が可能になると思われる。

 さらに、これらAIは、従来の研究成果を検証・再評価するとともに、疾病の発生機構についての理解の促進に役立つことになると思われる。たとえば、ある反応条件に適した酵素が必要な場合、自己学習型AIが「in silico(コンピュータ上)」で変異体設計、評価、学習のサイクルを行い、進化分子工学で得られる有用な変異体を実際の実験なしで設計できる可能性が考えられる。

 そうして、面倒なin vitroやin vivoでの実験を行わずに、コンピュータ内で全てのことが網羅的にできるようになったなら、研究のやり方が大きく変わると思われるが、一方で研究者、特にバイオ研究者の存在意義が問われるようになるかもしれない。研究者にはあくまでAIを活用・協調しつつも、それをさらに超えた独創性を発揮してもらうよう期待したいものである。

(参考文献)

・E. Callaway (2022) “The entire protein universe’AI predicts shape of nearly every known protein” Nature Vol.608, 15-16

・M. Hekkila「ディープマインド、既知の「ほぼすべて」のタンパク質構造を予測」MIT Technology Review(2022.7.29)

https://www.technologyreview.jp/s/281922/deepmind-has-predicted-the-structure-of-almost-every-protein-known-to-science/

ライフサイエンス振興財団嘱託研究員 佐藤真輔