cleanUrl: "tranception-paper-review"
description: "Protein fitness landscape을 예측하는 인공지능 모델인 tranception을 리뷰합니다."
Introduction
- 단백질 서열의 돌연변이 효과를 예측하는 unsupervised model은 신약 개발 및 병원성 돌연변이 예측에서 중요한 도구로 인기를 끌고 있다.
MSA 기반 방법론
- 그 중에서도 다중 서열 정렬(multiple sequence alignment, MSA) 기반의 방법론들이 좋은 성능을 보여왔는데, 여기서 MSA의 역할은 두 가지이다.
<aside>
💡 MSA의 역할
- Data acquisition tool: 관심 있는 단백질과 관련된 단백질들을 large DB에서 찾아준다
- Coordinate system: 정렬된 서열 상에서 특정 위치의 아미노산들의 비교를 가능하게 함
</aside>
<aside>
💡 MSA의 단점
- 잘 정립된 coordinate system 상에서의 아미노산 변이에 대해서만 예측이 가능하므로, insertion이나 deletion의 효과에 대해서는 예측이 어렵다.
- Proteome의 많은 부분은 정렬이 안되는 disordered region이다.
- Protein function이 특정 taxa에 국한되어 있다면 애초에 충분히 큰 MSA를 만들 수 없다.
- 모델이 만들어진 MSA의 특성에 민감해질 수 있다.
- 이러면 MSA를 만드는 parameter도 잘 조정해주어야 한다는 부담이 있음.
- 서로 다른 data subset에 대해서 학습된 모델끼리 information sharing이 어렵다.
</aside>
Language model (LM) 기반 방법론
- MSA 기반 방법론을 해결하기 위해 LM 기반 방법론이 등장함.
- ESM-1v (Meier et al., 2021) → 대량의 non-aligned 단백질 서열로 학습
- MSA Transformer (Rao et al., 2021) → 대량의 aligned 단백질 서열로 학습
- LM 방법론에도 한계는 있다.
<aside>
💡 LM 기반 방법론의 한계
- ESM-1v의 예를 들면, non-aligned 서열로 학습은 되지만 MSA 서열로 fine-tuning을 해야 성능이 쓸만해진다.
- Masked LM objective로 학습된 모델들은 full sequence의 likelihood를 계산하지 못한다.
- Mutation effect 예측에 있어서 어쩔 수 없이 heuristics의 도입이 필요해짐.
</aside>
Tranception
- Autoregressive transformer
- 대량의 non-aligned 단백질 서열로 학습한다. 학습 시에 MSA를 사용하지 않는다!
- Inference-time retrieval 방법을 사용한다
- 단백질이 Shallow MSA를 갖더라도 성능이 좋다
모델 구조 및 데이터
Tranception attention