第2回 ヒトゲノムの「完全な解読」

 本年3月31日、米国の国立ヒトゲノム研究所(NHGRI)等からなる研究グループ(テロメアtoテロメアコンソーシアム(T2TC))は、ヒトゲノムの完全な解読に成功したとする論文をScience誌に発表した。

ヒトゲノムの完全解読について掲載されたScience誌の表紙(2021年4月1日号)

 ヒトゲノムの解読は、かつて米国を中心に日英仏独中を加えた合計6か国の研究機関が参加した「ヒトゲノム計画」により、国際協力の下で大々的に進められた。そして大雑把な解読(ドラフトという)が2000年に、また解読の終了が2003年に宣言された。

 これは生命科学の手法の変革をもたらす記念碑的な出来事となった。同計画で解読された配列(リファレンスゲノムと呼ばれる)と比較しつつ、別のヒトゲノムの配列が次々と決定され、ヒトゲノム配列の多様性や病気と変異との関係が解明されてきた。また、塩基配列を決定するための装置であるシーケンサーの急速な発達が促され、27億ドルを費やしたヒトゲノム計画に比べ、現在では1ゲノム1,000ドル以下で、短時間で大量のシーケンスが行われるようになっている。

 だが、実はこのリファレンスゲノムは、完全なものではなかった。最大の問題は未解読部分の存在だった。ヒトゲノムを構成する30億の塩基対のうち、およそ8%に相当する約2億塩基対は解読ができていなかったのである。

 ゲノム配列内に繰り返し配列が多く存在していたことが、その大きな原因だった。ヒトのゲノムを読み取るためにはゲノムDNAを多数の断片にばらばらにしてそれぞれ配列決定を行い、その後、断片同士で重複している配列(いわゆる「のりしろ」)を手掛かりに各断片の順番をジグゾーパズルのように当てはめていくという工程が必要だった。だが、のりしろが含まれる配列の繰り返しがあると、のりしろが同じ配列の断片がいくつもできてしまい、どれが前か後か順番が分からなくなる。このような繰り返し配列は特に各染色体の端の部分(テロメア)や中心の交差部分(セントロメア)に多く存在している。これらは細胞分裂、発生・分化、老化制御等で重要な役割を果たしているとされるが、これらの多くが解読未決定のまま残されていたのである。

 また繰り返し配列の問題以外にも、リファレンスゲノムにはギャップやエラーが多く存在していた。ヒトゲノム計画は画期的な国際プロジェクトではあったが、当時の配列の決定位方法は、制限酵素で切断した断片を手作業で一つ一つ決定していくというもので、シーケンサーを用いた現在の手法と比較すると、高コストかつきわめて時間のかかる原始的なものだった。試行錯誤しつつ配列を決定したものの、それでも不正確な部分は残っていた。

 さらには、ヒトの染色体は父親と母親からそれぞれ22本ずつ提供された常染色体と、X又はYの性染色体を合わせた合計46本の染色体からなるが、リファレンスゲノム解読に用いた染色体は父型由来か母型由来かの区別ができずに用いられたため、解読結果も一貫したものとはなっていなかった。

 これら解読の不完全さの問題に加えて、リファレンスゲノムの人種・民族の多様性の欠如があった。ヒトゲノム計画での解読では、解析に用いたゲノムは米国に居住する十数人から集められたもので、とりわけ何種類かの染色体は同じ一人の提供者から提供されたものだった。これら提供者の選定には、人種の多様性や民族による違いなどは考慮されていなかった。

 ヒトゲノム計画で解読されたとするリファレンスゲノムであるが、このような解読が不完全な部分に、特定地域の人々に受け継がれてきた配列や、疾病と関係するような配列も存在しているとの報告も出された。そこで応急的な措置として、追加情報を取り込んでデータベースを構築する努力もなされてきた。だが、混乱を防止するためにも、まず基準となるリファレンスゲノムをきちんと修正し、その上で各種のバリエーションを示す必要があると考えた研究者は多かった。

 そして、これら研究者らが協力して、まず1つのゲノムについて完全なゲノム解読を目指すT2TCや、各種のゲノム解読により多様性を含めたゲノム解読を目指すヒトパンゲノムリファレンスコンソーシアム(HPRC)を設立し、両者は連携しつつ完全ゲノム解読を進めてきた。特にHPRCは、各種のバックグラウンドを有する350人のゲノムの解読を目指し、米国HGRIが2019年から提供する3,000万ドルの資金が用いられている。

 両コンソーシアムは上記の諸問題に対処するため、研究手法としてそれぞれいくつもの工夫をしてきている。

 共通することとしては、ヒトゲノム計画で生じたギャップやエラー対策として、高速かつ低コストのシーケンサーを積極活用することにより、効率的に確実な配列決定を行っていることである。ただし従来型のシーケンサーは読み取れる断片の長さが短く、繰り返し配列を含む領域の解読には不向きだった。このため、一度に長大な塩基対の断片を読み取ることができるナノポアタイプの最先端シーケンサー**を解読の中心に位置付けている。

 父親由来と母親由来の染色体の問題に対処するため、T2TCでは、核のない卵に精子が受精してできた受精卵(胞状奇胎という)を用いた。これを分裂発生させることで父親由来の一種類の染色体のみの解読が可能になった。一方HPRCでは、複雑な計算ツールを使用して父親由来と母親由来のゲノムを区分・解析できるよう工夫を施している。また、解読対象となる350人のゲノムについて、ゲノムの多様性を考慮しつつ、少数民族特有の遺伝子が発見されることによる差別などの倫理的な問題が起こらないよう、専門家を参画させて選定を行っている。

 今回、T2TCは、タンパク質を作出する遺伝子とみられるものを99個発見したほか、200万以上新規の変異を発見した。また病気に関連ある22の変異について、より正確な情報を見つけ出した。一方HPRCでは、これまでに少なくとも70もの詳細なゲノム解読を行ってきており、同グループは2024年までに350のゲノムの完全解読を終了する予定としている。

 こうした解読の今後のさらなる進展により、遺伝性疾患研究の推進や遺伝検査の普及に一層資することが大いに期待される。

(参考文献)

・D. M. Church (2022) “A next-generation human genome sequence” Science Vol.376, 34-35

・E. Pennisi (2022) “Most complete human genome yet is revealed” Science Vol.376, 15-16

・R. Khamsi (2022) “The quest for an all-inclusive human genome” Nature Vol.603, 378-379

2022年6月16日

ライフサイエンス振興財団嘱託研究員 佐藤真輔