代謝酵素の基質認識に寄与するアミノ酸残基の推定と機能創出
大阪大学大学院情報科学研究科バイオ情報工学専攻 ◇ 〒565–0871 大阪府吹田市山田丘1–5 情報科学研究科B棟6F
© 2024 公益社団法人日本生化学会
生物は突然変異と淘汰を繰り返しながら,多様な構造と機能を持つタンパク質を進化させてきた.天然のタンパク質は基礎科学から産業まで幅広く利用されているが,タンパク質は宿主生物やその環境の外での利用を想定していないため,熱安定性や触媒活性,基質特異性など,機能を目的の環境に合わせて調整する必要がある場合が多い.自然なタンパク質進化のように,機能や安定性への決定的なダメージを避けながら,目的の機能に影響を与える突然変異を特定の順序で蓄積することで,人為的に望みの機能を持つタンパク質を創出できる(図1).しかし,タンパク質への突然変異導入は過去の変異の影響を受けるため,変異が及ぼす機能への寄与は単純ではなく,非線形性の特徴を持つ.そのため,必要な変異にもかかわらず機能的,構造安定的に不利な状態に陥ることも多く,人工進化の過程で有力候補を脱落させてしまう可能性も高い.代謝酵素のように,基質の変換が求められるタンパク質においては特に困難な課題となる.基質特異性を変えるには一般に複数の変異が導入される必要があるが,活性に基づく変異体のスクリーニングが必要なため,現実的なスクリーニングサイズは数千個程度と,全配列空間のごく一部にとどまる.本稿では,シミュレーションや機械学習の技術を酵素工学に利用することで,スクリーニング規模の制限を緩和する試みについて,著者らの知見も織り交ぜながら最新の研究について解説する.
Linus Paulingが今から70年以上前に提唱した,「酵素は基質と結合し,その反応過程の遷移状態を安定化することで,反応の活性化エネルギーを低下させることができる」という理論1)は,近年発展してきた計算機を用いた酵素工学に影響を与えた.タンパク質モデリングソフトであるRosetta2)を利用し,活性部位を再設計することでさまざまなde novo(新規の)酵素が作り出されてきたが,Paulingが提唱した遷移状態の安定化の理論がまさにde novo酵素設計に利用された.Rosetta酵素設計プロトコルは,theozymeと呼ばれる遷移状態モデルを鋳型となるタンパク質に配置し,theozymeが安定化するように周囲の側鎖を探索することで,さまざまな酵素を設計する.たとえば,六員環を生じるDiels–Alder反応3),N–O結合を開裂させシアノフェノキシドを生成するKemp脱離反応4),β-ヒドロキシカルボニル化合物を開裂させる逆aldol反応5)等の生物界では珍しい反応を触媒する酵素が先述のプロトコルで作製されてきた.また近年では,theozymeの安定化ステップをRosettaから深層学習ベースの構造生成へと代替することで,de novoルシフェラーゼが設計された6).この論文では,高い量子収率,生体内動態,発光に補因子が不要等の点から,合成ルシフェリンであるdiphenylterazine(DTZ)を基質として用いている.これまでの計算による酵素設計の取り組みでは,主にタンパク質データバンク(PDB)に収録されている天然タンパク質が中間体構造を埋め込む足場として利用されていたが,目的の中間体構造に適した結合ポケットを持つ天然構造が常に見つかるわけではない.de novoルシフェラーゼは,ルシフェリンの酸化過程で生成されるimidazopyrazinone部位に酸素原子が結合したアニオン種を反応中間体として用い,これを安定化させるタンパク質を生成することで設計された(図2).具体的な操作は,DTZアニオン種のコンフォマー(配座異性体)を準備し,RifGenプロトコル7)によりimidazopyrazinone骨格のN1原子に対しアルギニンのguanidinium基の正電荷で安定させ,これをRifDockプロトコル8)により生成したNTF2(nuclear transport factor 2)様タンパク質フォールドに埋め込んでいる.最終的には7648種類の候補を実験的に評価し,三つの触媒活性を持つルシフェラーゼを獲得した.さらに,基質結合ポケット内を部位特異的飽和変異により最適化することで,変性中点温度95°C以上で天然のルシフェラーゼと同等の触媒効率を持つde novoルシフェラーゼを設計することに成功した.以上より,深層学習による鋳型タンパク質の生成は,従来の天然の鋳型タンパク質の数に制限があった従来のde novo酵素設計の適用範囲を大きく広げることに寄与する方法であると考えられる.本手法は原理的にはすべての酵素に対して反応場を提供できると考えられ,遷移状態や反応中間体等の詳細な構造が整備されれば汎用技術になっていくと期待される.
酵素の基質特異性を変える試みにおいては,標的基質と構造の近い基質を認識する酵素から始めるのが最も変異数が少なくできるため,目的機能を得やすいと考えられている.従来,進化分子工学と呼ばれる酵素への段階的な突然変異導入は,構造情報がなくても実施できるため酵素機能の拡張に多く用いられてきた.進化分子工学による酵素改変では,それぞれの突然変異は酵素機能および安定性の閾値以上でなければ候補から脱落してしまうため,適切な順序での変異導入が重要である.しかし,ある高効率酵素から別の高効率酵素へ改変するには,活性部位以外も含めて10か所以上の有効変異が必要であることが多く9),進化分子工学では困難な作業となってしまう.標的基質で検出可能な活性を示さない状態の酵素を出発点とすると,kcat/KMが1000倍程度改善することはしばしば報告されるが,通常,天然酵素の中央値として知られる~105 M−1 s−1に達することはまれである.そのため,high-throughput評価系が確立された酵素では改変を加速できるが,すべての酵素に適用できるわけではない.
計算科学による酵素改変は,以前の変異の影響を受けないため,複数回の繰り返し最適化から解放される.先述の活性部位のリモデリングによるde novo酵素が高い活性を得るには,error-prone PCRや部位特異的飽和変異等による進化分子工学による最適化が必要となる.そのなかで,標的酵素と相同なアミノ酸配列群を利用することで,進化的に許容されてきたアミノ酸残基を抽出し,Rosettaによるエネルギー計算と組み合わせることで効率的に活性変異体を探索する方法論が報告された10).この手法では,有機リン系殺虫剤パラオキソンを基質とするPseudomonas diminuta由来phosphotriesterase(PTE)の基質特異性を,さまざまな有機リン化合物に対して反応するように拡張している.
まず,PTE活性部位を構成する8か所のアミノ酸残基を変異対象残基として選択し,この部位に対する許容アミノ酸残基を相同遺伝子の多重配列アラインメントに従って絞り込む.多重配列アライメントで出現しない,または出現がまれなアミノ酸残基への変異は許可しないという絞り込みである.次に,Rosettaを用いて親酵素に対して絞り込んだアミノ酸残基を点変異にて導入し,不安定化するアミノ酸残基を排除することで,さらに許容されるアミノ酸を絞り込む.これにより,1010規模の配列空間のうち探索すべき変異体が105程度まで低下する.そして,絞り込まれたアミノ酸残基の変異セットをすべて組み合わせた変異導入を実施し,Rosettaのエネルギー指標に従って安定性の高いものから順にランクづけした.二つ以上の変異が導入された上位49種の変異体について,基質特異性が変化したかを実験的に評価し,合成lactone tetrabutyl butyrolactone, somanなどの本来の基質ではない有機リン化合物に対する特異性が3000倍以上向上し,kcat/KMが107 M−1 min−1以上を示す変異体も見つけることに成功している10).
また別の手法として著者らは,進化情報を機械学習に利用することで基質特異性をつかさどるアミノ酸残基を推定できることを報告した11).ここでは,データベース上に存在する類似の構造を持つタンパク質を触媒様式ごとに分類したあと,各グループに属する酵素のアミノ酸配列をラベルづけし,これを機械学習の入力データとして用いることで基質特異性をつかさどるアミノ酸残基を抽出できることを示した.基本的な概念は,似た構造を持つが異なる機能を有する酵素から,保存されたアミノ酸残基の情報を抽出・比較することで,それぞれの機能を発現するためのアミノ酸残基の情報を残基間のエピスタシス(複数の残基が相互に影響し合い機能や構造に非線形な影響を与える現象)を含めて同時に抽出することができるというものである(図3).これにより,構造安定的に不利な状態に陥ることなく特異性が変換できる.本コンセプトを証明するために,NAD(H)またはNADP(H)を補酵素としてTCA回路のリンゴ酸と解糖系のピルビン酸の相互変換を触媒するリンゴ酸脱水素酵素(MaeB)について,どのアミノ酸残基が補酵素選択性に関わるかを同定することとした.
相同な構造を持つ酵素を対象に,データベースから配列情報を取得する.それぞれの酵素群で保存されているアミノ酸残基は機能と構造に関する情報を持っていると仮定し,酵素群間をAIモデルにより比較解析することで,どのアミノ酸残基が機能に関わる情報を持っているかを推定することができる.
まずNADP依存型とNAD依存型のリンゴ酸脱水素酵素のアミノ酸配列をデータベースより取得し,重複配列を除いた.これを多重配列アライメントにより整列させ,ロジスティック回帰モデルで学習させた.学習後の偏回帰係数βi,jは0≦βi,j≦1であり,0に近い残基はNAD依存型に,1に近い残基はNADP依存型に寄与していると分類されるように同定した.ここで,偏回帰係数βi,jのiとjはそれぞれ,20種類アミノ酸の種類と多重配列アライメント後の長さが調整されたアミノ酸残基の番号を表す.各アミノ酸位置におけるβの最大値と最小値の絶対値の和を求め,この値が大きいアミノ酸残基位置ほど補酵素選択性に影響を及ぼす寄与が高いと考えた.このランキングに従い,大腸菌由来NADP依存型MaeBのMEドメイン(trcMaeB)をランキングで10~100位までのアミノ酸で10単位ずつ変異させ,補酵素選択性を実験により評価した.その結果,ランキング70位までの変異を導入しても可溶性画分として発現・精製でき,変異を30個導入したtrcMaeB30は本来のNADPに対する親和性が消失し,NADに対して親和性を示すことが明らかとなった.trcMaeB50でNADへの親和性が最大となった.比較モデリングにより作成したモデル構造を用いて変異位置を調査すると,補酵素が結合するポケットへの変異は一つのみで,ポケット周辺への変異がリンゴ酸脱水素酵素の補酵素選択性に寄与していることが明らかとなった.これより,基質選択性に寄与しているアミノ酸残基は基質ポケットを構成するものだけでなく,構造観察からは同定しにくい基質ポケットからは離れた場所にも存在することを実験的に示した.
機械学習支援指向性進化と呼ばれる実験データと機械学習を用いたタンパク質工学技術は,タンパク質の適応度ランドスケープを近似する関数を学習することで,少数の実験データだけをin silico探索に利用して効率的に目的機能を持つタンパク質を得る手法である.機械学習支援指向性進化は基質特異性改変への適用が容易なため,ここでは初期の試みと生成物特異性を変換させた例12–14)
を紹介する.
ガウス過程回帰モデルを用いた最適化手法は,少ない実験データ量でもタンパク質配列と機能を関連づけることができることから近年研究成果の報告数が急速に増加している.これまでに報告があるのは,酵素の耐熱化12)や蛍光タンパク質13)等であり,スクリーニング規模に依存するが,通常,数アミノ酸残基やフラグメントの組合わせからなる105以下の比較的小さな配列空間の内挿に強みがある手法である.初期の実施例として,cytochrome P450に対し,ガウス過程回帰モデルを利用して耐熱化と基質親和性を予測した研究がある12).242種類のT50値(加熱時間10分でタンパク質の半分が不可逆的に不活性化される温度と定義されている)と配列データを用いて,ガウス過程回帰モデルを学習し,汎化性能を示す交差検証の平均予測精度は0.95,平均絶対偏差は1.4°Cを達成している.さらに,このアルゴリズムを29種のcytochrome P450のデータセットに対して適用し,神経伝達物質への触媒活性と基質特異性に関する予測を実施し,これまでテストされていなかったP450配列の活性とリガンド結合親和性を正確に予測するガウス過程回帰モデルを生成できた.そして,T50を予測したモデルを用い,耐熱性を高めたキメラcytochrome P450を設計した結果,T50を55°Cから69.7°Cに向上させることに成功している.
近年では,機械学習支援指向性進化に,deep mutational scanningとhigh-throughput評価系を利用することで,これまでよりも大きなデータセットを用いた研究も報告されている14).この研究では,事前学習されたUniRep15)を酵素活性とエナンチオ選択性の予測に転用した.対象とした酵素はimine reductase(IRED)であり,酵素活性と生成物のエナンチオ選択性の向上を狙っている.IREDの各残基を20種類のアミノ酸で置換した1残基変異体ライブラリーおよびerror-prone PCRで作製した変異体を大腸菌で発現させ,粗抽出物サンプル中の生成物量を最新のhigh-throughput質量分析装置で高速に評価し,次に,特に活性の高かった変異体を選抜し,エナンチオ選択性を評価している.これらの結果から得た5000を超える変異体の酵素活性データと数百程度のエナンチオ選択性データを用いてタンパク質の事前学習モデルであるUniRep15)を転移学習(あるタスクで学習した知識やモデルを別の関連するタスクに適用する機械学習の手法)させている.ランダムフォレストモデルにより活性と(R)-エナンチオ選択性の軸でパレート最適化が実行され,上位の168変異体が実験的に評価されている.そのなかでも,S117H/A218M/A296Tの変異体は変換効率74%,エナンチオマー過剰率81%ee(R)であり,高い触媒特性を示した.
本稿では,酵素の触媒特性を担うアミノ酸残基を同定・変換する手法を中心に著者らの知見も交えて解説した.ここ数年で酵素スクリーニングの課題であった評価可能な変異体数の制限は,計算機シミュレーションや機械学習・深層学習技術で乗り越えられる機運が高まってきた.生成AI,分類モデル,構造シミュレーションの利用で,酵素改変を開始する前に変異残基や親酵素を限定することができ,酵素がどの方向に最適化しうるかの推定やまったく新しい反応を設計することも期待できる.さらに,機械学習支援指向性進化により,high-throughput評価系がなくても配列空間から探索すべき変異体を効率的に限定することが可能になっており,今後は変異の非付加的な効果を表現できるモデルが重要になると予想される.また,アミノ酸配列データと比べて酵素活性のまとまったデータは公共の場にはほとんど存在しないことも現在の課題である.今後,ロボットを使った自動化技術やhigh-throughputかつ精度の高いアッセイ手法,長鎖DNA合成技術が発展することで学習データ量の課題は解決されていくものと期待している.
1) Pauling, L. (1946) Molecular architecture and biological reactions. Chem. Eng. News, 24, 1375–1377.
2) Leaver-Fay, A., Tyka, M., Lewis, S.M., Lange, O.F., Thompson, J., Jacak, R., Kaufman, K., Renfrew, P.D., Smith, C.A., Sheffler, W., et al. (2011) Rosetta3: An object-oriented software suite for the simulation and design of macromolecules. Methods Enzymol., 487, 545–574.
3) Siegel, J.B., Zanghellini, A., Lovick, H.M., Kiss, G., Lambert, A.R., St. Clair, J.L., Gallaher, J.L., Hilvert, D., Gelb, M.H., Stoddard, B.L., et al. (2010) Computational design of an enzyme catalyst for a stereoselective bimolecular Diels–Alder reaction. Science, 329, 309–313.
4) Röthlisberger, D., Khersonsky, O., Wollacott, A.M., Jiang, L., Dechancie, J., Betker, J., Gallaher, J.L., Althoff, E.A., Zanghellini, A., Dym, O., et al. (2008) Kemp elimination catalysts by computational enzyme design. Nature, 453, 190–195.
5) Jiang, L., Althoff, E.A., Clemente, F.R., Doyle, L., Röthlisberger, D., Zanghellini, A., Gallaher, J.L., Betker, J.L., Tanaka, F., Barbas, C.F. 3rd, et al. (2008) De novo computational design of Retro–Aldol enzymes. Science, 319, 1387–1391.
6) Yeh, A.H.-W., Norn, C., Kipnis, Y., Tischer, D., Pellock, S.J., Evans, D., Ma, P., Lee, G.R., Zhang, J.Z., Anishchenko, I., et al. (2023) De novo design of luciferases using deep learning. Nature, 614, 774–780.
7) Dou, J., Vorobieva, A.A., Sheffler, W., Doyle, L.A., Park, H., Bick, M.J., Mao, B., Foight, G.W., Lee, M.Y., Gagnon, L.A., et al. (2018) De novo design of a fluorescence-activating β-barrel. Nature, 561, 485–491.
8) Cao, L., Coventry, B., Goreshnik, I., Huang, B., Sheffler, W., Park, J.S., Jude, K.M., Marković, I., Kadam, R.U., Verschueren, K.H.G., et al. (2022) Design of protein-binding proteins from the target structure alone. Nature, 605, 551–560.
9) Badenhorst, C.P.S. & Bornscheuer, U.T. (2018) Getting momentum: From biocatalysis to advanced synthetic biology. Trends Biochem. Sci., 43, 180–198.
10) Khersonsky, O., Lipsh, R., Avizemer, Z., Ashani, Y., Goldsmith, M., Leader, H., Dym, O., Rogotner, S., Trudeau, D.L., Prilusky, J., et al. (2018) Automated design of efficient and functionally diverse enzyme repertoires. Mol. Cell, 72, 178–186.
11) Sugiki, S., Niide, T., Toya, Y., & Shimizu, H. (2022) Logistic regression-guided identification of cofactor specificity-contributing residues in enzyme with sequence datasets partitioned by catalytic properties. ACS Synth. Biol., 11, 3973–3985.
12) Romero, P.A., Krause, A., & Arnold, F.H. (2013) Navigating the protein fitness landscape with Gaussian processes. Proc. Natl. Acad. Sci. USA, 110, E193–E201.
13) Saito, Y., Oikawa, M., Nakazawa, H., Niide, T., Kameda, T., Tsuda, K., & Umetsu, M. (2018) Machine-learning-guided mutagenesis for directed evolution of fluorescent proteins. ACS Synth. Biol., 7, 2014–2022.
14) Ma, E.J., Siirola, E., Moore, C., Kummer, A., Stoeckli, M., Faller, M., Bouquet, C., Eggimann, F., Ligibel, M., Huynh, D., et al. (2021) Machine-directed evolution of an imine reductase for activity and stereoselectivity. ACS Catal., 11, 12433–12445.
15) Alley, E.C., Khimulya, G., Biswas, S., AlQuraishi, M., & Church, G.M. (2019) Unified rational protein engineering with sequence-based deep representation learning. Nat. Methods, 16, 1315–1322.
This page was created on 2024-09-04T08:44:07.881+09:00
This page was last modified on 2024-10-18T08:12:53.000+09:00
このサイトは(株)国際文献社によって運用されています。