cleanUrl: "tranception-paper-review"
description: "Protein fitness landscape을 예측하는 인공지능 모델인 tranception을 리뷰합니다."

Introduction

MSA 기반 방법론

<aside> 💡 MSA의 역할

  1. Data acquisition tool: 관심 있는 단백질과 관련된 단백질들을 large DB에서 찾아준다
  2. Coordinate system: 정렬된 서열 상에서 특정 위치의 아미노산들의 비교를 가능하게 함 </aside>

<aside> 💡 MSA의 단점

  1. 잘 정립된 coordinate system 상에서의 아미노산 변이에 대해서만 예측이 가능하므로, insertion이나 deletion의 효과에 대해서는 예측이 어렵다.
  2. Proteome의 많은 부분은 정렬이 안되는 disordered region이다.
  3. Protein function이 특정 taxa에 국한되어 있다면 애초에 충분히 큰 MSA를 만들 수 없다.
  4. 모델이 만들어진 MSA의 특성에 민감해질 수 있다.
    1. 이러면 MSA를 만드는 parameter도 잘 조정해주어야 한다는 부담이 있음.
  5. 서로 다른 data subset에 대해서 학습된 모델끼리 information sharing이 어렵다. </aside>

Language model (LM) 기반 방법론

<aside> 💡 LM 기반 방법론의 한계

  1. ESM-1v의 예를 들면, non-aligned 서열로 학습은 되지만 MSA 서열로 fine-tuning을 해야 성능이 쓸만해진다.
  2. Masked LM objective로 학습된 모델들은 full sequence의 likelihood를 계산하지 못한다.
    1. Mutation effect 예측에 있어서 어쩔 수 없이 heuristics의 도입이 필요해짐. </aside>

Tranception

모델 구조 및 데이터

Tranception attention

Untitled