生物学のバイオインフォマティクスとデータ分析に興味がある場合、この記事はすぐにインスピレーションを与えることがわかります。
AI科学者にとってより広く、彼らはここでLLMを幻覚に押し付けて、この制限を克服する方法を見つけることでLLMを調査する方法を見つけます。Protein Data Bank(PDB)は、生物学的高分子の3次元構造データの包括的なリポジトリとして機能し、生物学的プロセスの分子基盤に関する非常に貴重な洞察を提供します。その単なる存在は、AlphafoldのようなAIモデルを開発できるようにしたものです!はじめに
タンパク質モデリング、CASP、およびAlphaFold 2
に関する私の査読済みのブログ記事とブログ記事はすべてです。「化学的直観の火花」 - そして総計3 PDBのエントリを効率的に閲覧および検索することは、生物学の現代の仕事に不可欠です。ただし、非常に完全な検索エンジンにもかかわらず、いくつかの質問を提起するのは困難です。しかし、ここで見つけて報告したように、このタイトルの記事で見たように、GPT-4oがProtein Data Bankを知っているので、PDBを自然言語の要求で尋問できるようになりました。
it私が好奇心から行ったいくつかのテストから、Openaiには明らかにPDBコンテンツ(またはPDB情報を含むコンテンツが含まれている、後で説明します)がその大規模な言語モデルのトレーニング(LLMS)を含んでいることがわかりました。 )、少なくともGPT-4Oのトレーニングで。これを見つけた後、私はこれで遊ぶように設定し、Alphafold 3を使用して構造決定テストでGPT-4oとのチャットから出てきたいくつかのアイデアを結び付けました。 私の結果に基づいて想像しているのは、人工知能、特に自然言語処理モデルの進歩により、研究者がより簡単に検索できるため、PDBから適切な構造情報を利用できるようになりました。自然言語の要求でPDBを照会する能力は、私が提示する多くの例でわかるように非常に強力であり、折り畳まれたタンパク質だけでなく核酸も含まれる生体分子構造、複合体、および集合体の詳細な調査を可能にします。タンパク質、および小分子はすべて、関連するPDBエントリの形で実験的に検証された構造データへの直接リンクを備えています。より具体的には、多くの例を通じて、PDBサイトで利用可能な通常の検索ボックスに入力するだけでうまく機能しない可能性のある複雑な検索用語に関連する関連するPDBエントリをGPT-4oがどのように役立つかを示します。私の例では、さまざまなキナーゼ標的に縛られたGlivec(イマチニブ、抗がん剤)、拘束力のあるパートナーに関与する本質的に無秩序な領域(IDR)、および翻訳後修飾(PTM)などの生物学と製薬のいくつかの非常に関連性のある相互作用を取り上げます。いくつかの例では、AlphaFold 3を使用して空間でのこれらの相互作用をモデル化する可能性をさらに調査し、LLMベースのPDB検索と3D視覚化の間のブリッジを効果的に提供します。
以下では、GPT-4oに続いて生の答えが続くように尋ねられた質問と場合によっては、選択した例で行った下流の分析を説明するために準備した質問としての調査を言い直します。
探索1:キナーゼにバインドされたGlivec(イマチニブ)の例については、PDBコードを知っていますか?chatgpt-4oに「キナーゼに縛られたglivec(イマチニブ)の例については、pdbコードを知っていますか?」と尋ねました。そして…
chatgptが言った:
はい、Glivec(Imatinib)はよく知られているチロシンキナーゼ阻害剤であり、PDBのいくつかの構造は標的キナーゼに結合していることを示しています。ここにいくつかの重要な例があります:
イマチニブに結合したablキナーゼ
1iep
- pdbコード:
説明:
これは、慢性骨髄性白血病(CML)の標的であるABLキナーゼに結合したイマチニブを示す最も初期の構造の1つです。イマチニブは、ABLの非アクティブな立体構造に結合し、それを安定化し、キナーゼの活性化を防止します。これが私のチェックです。ChatGpt-4oが提供するすべての例でこれを行いましたが、いくつかのみを示します。ここでは、PDB 1IEPがSTI-571で複合したキナーゼドメインであり、これはPDBのリガンド仕様のイマチニブに対応しています。
chatgpt-4oその後、より多くの例を継続してください:イマチニブに結合した
c-kitキナーゼ
pdbコード:
- 1T46
説明:イマチニブは、胃腸間質腫瘍(GIST)を含む特定の癌では過活動的なC-KIT受容体チロシンキナーゼにも結合します。この構造は、c-kitのATP結合部位に結合したイマチニブを示しており、そのキナーゼ活性を阻害します。 イマチニブに結合したpdgfrキナーゼ
pdbコード:
1xbbイマチニブは、さまざまな癌に関与する別のキナーゼ、血小板由来成長因子受容体(PDGFR)キナーゼに結合します。この構造は、イマチニブがその非アクティブな立体構造に結合することによりPDGFRを阻害する方法を示しています。
- 説明:
イマチニブに結合した
- ablキナーゼ変異体(T315i)
pdbコード: 3GVU
説明:この構造は、一部の癌患者のイマチニブに対する耐性に関連するT315I変異を持つABLキナーゼを示しています。この突然変異は結合部位を変化させ、イマチニブの有効性を低下させ、薬剤耐性のメカニズムを強調します。 これらの構造は、イマチニブがABL、C-KIT、PDGFRなどのキナーゼの不活性形態を選択的に安定化する方法を示しており、さまざまな癌の異常な細胞増殖を制御するのに役立ちます。
探索2:別のタンパク質に結合した本質的に無秩序な領域の例については、PDBコードを知っていますか?
今回は、「別のタンパク質に縛られた本質的に無秩序な領域の例については、PDBコードを知っていますか?」と尋ねました。そして、そこに行きました:
chatgptが言った:
はい、PDBには、あるタンパク質の本質的に無秩序な領域(IDR)が別のタンパク質に結合するいくつかの十分に特徴付けられた構造があります。これらのIDRは通常、バインディング時に定義された構造を採用します。これは、規制またはシグナル伝達機能にとって重要です。ここにいくつかのよく知られた例があります:
P53 Transactivation DomainはMDM2chatgptが言った:にバインドされています
- pdbコード:
1ycr説明:p53のN末端トランス活性化ドメインは、本質的に乱れているため、MDM2腫瘍性タンパク質に結合します。この相互作用は、p53の安定性と機能を調節します
e1a rbに結合したアデノウイルスから
pdbコード:
- 1lxe
説明:アデノウイルスからの本質的に無秩序なE1Aタンパク質は、細胞周期制御におけるRBの機能を阻害し、網膜芽細胞腫(RB)タンパク質に結合します。 C-Mycトランス活性化ドメインは、CBP
のTAZ1に結合していますpdbコード:
1SB0C-MYCの無秩序なトランス活性化ドメインは、転写共生物であるCBPのTAZ1ドメインに結合すると、アルファヘリカル構造を採用します。
- 説明:
サイクリンa/cdk2 にバインドされたp27kip1
pdbコード: 1jsu
- 説明:
本質的に無秩序なP27KIP1は、サイクリンとCDKサブユニットを包むことにより、サイクリンA/CDK2複合体を結合および阻害します。この相互作用は、細胞周期の調節において重要な役割を果たします。ASH1ポリコムの染色体に結合した本質的に無秩序な領域
pdbコード: 2l3j
説明:
cbp- ash1の本質的に無秩序な領域は、転写サイレンシングの調節因子であるポリコム(PC)の染色体と相互作用し、結合時に構造化された形を採用します。
のkixドメインにバインドされたcrebのpkid
pdbコード:1kdx
説明:CREBのリン酸化キナーゼ誘導性ドメイン(PKID)は、本質的に乱れているため、CBPのKIXドメインに結合します。リン酸化は、PKIDでアルファヘリックスの形成を誘導し、相互作用を安定化します。
DNAに結合したets1転写因子
pdbコード: 2nny
説明:ETS1の無秩序な調節領域は、DNAを結合すると部分的に秩序化されます。これは、非タンパク質のパートナーと相互作用するときに構造を採用する障害領域の例です。
HIF-1α酸素依存性分解ドメインは、VHLに結合しています
pdbコード:1lqb
説明:本質的に乱れたHIF-1αの酸素依存性分解ドメインは、von hippel-lindau(VHL)タンパク質に結合します。この相互作用は、正常酸素条件下での分解のためにHIF-1αをマークします 微小管に結合したタウタンパク質
5syf
- pdbコード:
説明:
タウは、微小管と相互作用する本質的に無秩序なタンパク質です。結合すると、タウの特定の領域は構造化された立体構造を採用し、微小管アセンブリの安定化に役立ちます。ヒストンH1障害DNAまたはヒストンシャペロンに結合した
- pdbコード:
2lxd説明:ヒストンH1の無秩序なC末端尾部はDNAとヒストンシャペロンに結合し、結合時に部分構造を採用します。この相互作用は、クロマチン圧縮に役割を果たします これらの構造は、多くのIDRの「折り畳み式の結合」特性を紹介します。多くのIDRでは、結合パートナーの存在下で特定の二次または三次構造を採用し、シグナル伝達、調節、遺伝子発現などの重要な細胞プロセスを促進します。 🎜>
例:完全なタンパク質を使用したAlphafold 3の逆予測を含むPDB 1ycr次に、これらの例のいくつかを実践的に見るように設定しました。 PDB 1YCR(ここでCHATGPT-4Oによって提供される最初の回答)は、さまざまな方法で癌に関連するタンパク質であり、他のタンパク質に結合するいくつかの無秩序な残基を含むp53の構造です。このPDBファイルでは、MDM2と相互作用してキャッチされました。これは、図の左上にある実験構造では明確で、MDM2からの短いセグメントがヘリックスとしてp53に結合します。また、これをAlphafold 3の完全な複合体の予測にも見ています。これは、いくつかの追加の相互作用を示唆しています。
探索3:翻訳後の修正を含む他のタンパク質に結合したタンパク質のPDBエントリを提案しますか?
確かに!以下は、翻訳後修飾(PTM)によって媒介される相互作用に関与するタンパク質を特徴とするいくつかのPDBエントリを紹介します。これらの構造は、リン酸化、メチル化、アセチル化などのPTMがタンパク質間相互作用にどのように影響するかについての洞察を提供します。pdbコード:リン酸化認識
14–3–3リン酸化ペプチドに結合したタンパク質
pdbコード:
1qja
説明:構造は、リン酸化ペプチドに結合した14〜3〜3タンパク質を示しています。 リン酸化ペプチドに結合したbrctドメイン
pdbコード:
1T29 説明:この構造は、BACH1のリン酸化ペプチドに結合したBRCA1 BRCTドメインを備えており、BRCTドメインによってリン酸化がどのように認識されるかを示しています。
ユビキチン認識 ユビキチンに結合したp62のユビキチン結合ドメイン
pdbコード: 3b0f
説明:構造は、ユビキチンに結合したp62のUBA(ユビキチン関連)ドメインを描写し、P62がオートファジーのポリユビキチン化基板を認識および結合する方法を強調しています。
メチル化認識メチル化ヒストンに結合したHP1の染色体
3c1a
- pdbコード:
説明:
HP1染色体は、トリメチル化ヒストンH3K9ペプチドと相互作用し、ヒストンのメチル化がどのように認識され、転写調節に寄与するかを示します。 アセチル化認識
ブロモドメインに結合したアセチル化ヒストンH4 pdbコード:
3mxf
説明:この構造は、アセチル化されたヒストンH4尾に結合したBETタンパク質Brd4のブロモドメインを示し、ヒストンのアセチル化がクロマチン相互作用をどのように認識し、媒介するかを示しています。 ネディル化認識
cullin-ring e3リガーゼがnedd8 に結合しました
pdbコード: 2zvj
構造は、カリンリングE3リガーゼとNEDD8修飾の間の相互作用を示しており、ユビキチン - プロテアソームシステムにおけるネジル化の役割を強調しています。
- 説明:
p27KIP1およびサイクリン-CDK結合のリン酸化
cdk2-cyclinリン酸化P27KIP1 に結合した複合体
pdbコード:1jsu
説明:この構造は、P27KIP1のリン酸化型と相互作用するサイクリンA/CDK2複合体を示しており、リン酸化がサイクリン依存性キナーゼの結合と阻害をどのように調節するかを示しています。
グリコシル化pdbコード:
- マンノシル化糖タンパク質に結合したコンカナバリンのレクチンドメイン
3fqz
説明:この構造は、マンノシル化糖タンパク質に結合した植物レクチンであるコンカナバリンAを特徴としています。 ETS1転写因子のリン酸化
dnaにバインドされた
2nny
- pdbコード:
説明:
ETS1の無秩序な調節領域は、DNAを結合すると部分的に順序付けられ、リン酸化が標的配列と相互作用する能力にどのように影響するかを示します。 p53 のアセチル化
アセチル化P53はMDM2
1ycr
説明:アセチル化P53とMDM2の相互作用は、アセチル化が重要な腫瘍抑制因子であるp53の安定性と調節にどのように影響するかを示しています。
sumoylationSUMO相互作用モチーフpdbコード:
4c0n説明:
この構造は、SUMO-1に結合したSUMO相互作用モチーフを含むタンパク質を示しており、SUMOYLationがさまざまなタンパク質相互作用をどのように調節するかを強調しています。
- 例:PDB 1QJA、AlphaFold 3の逆予測を含む(リン酸化残基を処理できます!)
PDB 1QJA(ChatGPT-4Oによって提供される最初の回答)は、リン酸化(4 O原子に囲まれたP原子)を備えたペプチドに結合した14〜3〜3と呼ばれるタンパク質の構造です。下の写真では、3D構造は、タンパク質とリン酸化ペプチドの間で観察された複合体に対応しています(左:フルビュー、右:リン酸塩のズーム)。リン酸塩グループがいくつかの接触(破線)を確立する方法を見ることができます。以下の緑色の2Dプロットは、Alphafold 3のPAEプロットであり、リン酸基が存在するときにタンパク質と相互作用するペプチドのより良い統計(より緑)を示しています(右)。 gpt-4oはトレーニング時にPDBを実際に学習しましたか?
Openaiは電子メールで尋ねたときにこれに答えなかったので、ChatGpt-4o自体に尋ねました。そして答えは…一種ですが、まったく!です
chatgptから得たのは、PDBエントリで明示的にトレーニングされていないことです(PDBエントリごとに紙の要約と他のデータが含まれているため)。しかし、ChatGptは、そのトレーニング資料には、これらのPDBエントリを参照した論文、プリプリント、要約、および教育文書が含まれていると説明しました。そして、それが膨大な数のPDBエントリについて知るようになった方法です。 PDBエントリの幻覚とそれらを克服する方法
上記が正しい場合、つまり、GPT-4OがPDB自体で訓練されていないが、特定のPDB構造を参照する論文やその他のドキュメントを使用している場合、多くの構造について知らないことは完全に起こる可能性があります。特に紙にリンクされていないもの。このアイデアに従って、私はchatgpt-4oをもう少し深く尋問し、それを公開しようとしました。それを割るのに時間がかかりましたが、最終的には管理しました。 「PDB ID 1CI0を知っていますか?」のような私の最初の質問で(PDBが論文にリンクしていないことを示しています)、私は自信を持って回答を得ましたが、このエントリは「
Desulfovibrio vulgarisのシトクロムC553を説明している」と誤って説明しました。しかし、PDBのエントリは、これはシトクロムCでもない別のタンパク質でも、
desulfovibrio vulgaris。 今、それは悪いことです。すべての幻覚のように非常に悪いです。しかし、勇気づけられると、CHATGPT-4Oにオンライン検索を行うように頼むと(PDBは完全に開いていることに注意してください)、正しい情報を蒸留します。 PDB ID1CI0
は、ピリドキシン-5'-リン酸(PNP)オキシダーゼの結晶構造を指します。この酵素は酸化還元酵素に分類されており、ビタミンB6代謝経路で重要な役割を果たしています。ビタミンB6の活性型であるピリドキシン-5'-リン酸のピリドキサル-5'-リン酸への変換を促進します。
構造は、2.7Åの分解能でX線回折を使用して決定され、生物学的集会はホモダイマーです。この実験は、大腸菌で発現した組換えタンパク質に由来する結晶を使用して実施されました。構造には2つのタンパク質鎖が含まれ、補因子フラビンモノヌクレオチド(FMN)に結合しています。これは、酵素活性に重要です。 このエントリは、1999年にShi et alによって預けられました。ビタミンB6生合成メカニズムとバイオテクノロジーまたは医学における潜在的な応用を研究するためによく使用されます。 …これは、本質的にPDBでこのエントリで利用可能なすべての情報を完全に反映しており、「PNP」のような頭字語とショートフォームの名前を綴り、すべてのデータをクリーンアップするため、実際にはそれよりも優れています。PDBと比較してください。エントリ:
![]()
だから?有用かどうか?
この最新の実験での私の結論は、幻覚を完全に傾倒しやすいにもかかわらず、ChatGptにオンラインでのエントリをバックサーチに強制することでクロスチェックすることで、おそらくその幻覚の問題を完全に克服できる可能性があるということです。
これらすべてのAIツールと同様に、注意が必要ですが、検索バックアプローチはおそらく信頼できますが、非常に具体的な結論を描く前に、LLMの出力を自分でクロスチェックする方が良いでしょう。結論と見通し
この探索を通じて、私は実験的構造生物学、Alphafold 3などのツールを使用した分子モデリング、およびGPT-4oのようなLLMが収束することができることを説明することを目指しました。トレーニングデータセットにPDBに関するコンテンツを含めます。前回のセクションで見た幻覚の問題から、PDBエントリの情報をLLMトレーニングに明示的に含めることは、これらすべてを新しいレベルに引き上げることができ、より良くより正確に機能することを提案します。しかし、上記でテストした検索バックアプローチでは、おそらくLLMが誤った情報に忍び込まないことを安全に感じることができます。これらの組み合わせリソースを活用することにより、科学者は、特定のトピックに関連して利用可能な構造の範囲をより速く、よりよく知ることができると思います。おそらく、生物学の新しい特定のサブドメインに移動するときに最も便利です。 また、これらのリソースは、LLMSとAlphaFold 3(または現在出現している類似モデル)が、生体分子とその複合体を新しい方法で理解するだけでなく理解する方法を結びつけることができる方法の調査を通じて、より基礎を築くための基礎を築くと思います。おそらく、PDBに関するLLMSの知識から利益を得る分子グラフィックスとモデリングツールを作成することもできます。
www.lucianoabriata.com私は、自然、科学、技術、プログラミングなど、私の幅広い関心の範囲にあるすべてのことについて書いています。小規模な仕事について相談するには、こちらのサービスページを確認してください。ここで私に連絡できます。ここで私を傾けることができます。
以上が叙事詩“クロスオーバー” Alphafold 3とGPT-4oの間でタンパク質データバンクエントリに関する知識の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。