Tranception 논문 리뷰 | Notion

cleanUrl: "tranception-paper-review"
description: "Protein fitness landscape을 예측하는 인공지능 모델인 tranception을 리뷰합니다."

Introduction

단백질 서열의 돌연변이 효과를 예측하는 unsupervised model은 신약 개발 및 병원성 돌연변이 예측에서 중요한 도구로 인기를 끌고 있다.

MSA 기반 방법론

그 중에서도 다중 서열 정렬(multiple sequence alignment, MSA) 기반의 방법론들이 좋은 성능을 보여왔는데, 여기서 MSA의 역할은 두 가지이다.

<aside> 💡 MSA의 역할

Data acquisition tool: 관심 있는 단백질과 관련된 단백질들을 large DB에서 찾아준다
Coordinate system: 정렬된 서열 상에서 특정 위치의 아미노산들의 비교를 가능하게 함 </aside>

하지만 MSA는 치명적인 단점이 있다.

<aside> 💡 MSA의 단점

잘 정립된 coordinate system 상에서의 아미노산 변이에 대해서만 예측이 가능하므로, insertion이나 deletion의 효과에 대해서는 예측이 어렵다.
Proteome의 많은 부분은 정렬이 안되는 disordered region이다.
Protein function이 특정 taxa에 국한되어 있다면 애초에 충분히 큰 MSA를 만들 수 없다.
모델이 만들어진 MSA의 특성에 민감해질 수 있다.
1. 이러면 MSA를 만드는 parameter도 잘 조정해주어야 한다는 부담이 있음.
서로 다른 data subset에 대해서 학습된 모델끼리 information sharing이 어렵다. </aside>

Language model (LM) 기반 방법론

MSA 기반 방법론을 해결하기 위해 LM 기반 방법론이 등장함.
- ESM-1v (Meier et al., 2021) → 대량의 non-aligned 단백질 서열로 학습
- MSA Transformer (Rao et al., 2021) → 대량의 aligned 단백질 서열로 학습
LM 방법론에도 한계는 있다.

<aside> 💡 LM 기반 방법론의 한계

ESM-1v의 예를 들면, non-aligned 서열로 학습은 되지만 MSA 서열로 fine-tuning을 해야 성능이 쓸만해진다.
Masked LM objective로 학습된 모델들은 full sequence의 likelihood를 계산하지 못한다.
1. Mutation effect 예측에 있어서 어쩔 수 없이 heuristics의 도입이 필요해짐. </aside>

Tranception

Autoregressive transformer
대량의 non-aligned 단백질 서열로 학습한다. 학습 시에 MSA를 사용하지 않는다!
Inference-time retrieval 방법을 사용한다
단백질이 Shallow MSA를 갖더라도 성능이 좋다

모델 구조 및 데이터

Tranception attention

Untitled