5′ UTR语言模型为蛋白质表达的预测和优化提供了新的视角
Speaker

褚晏伊
斯坦福医学院、普林斯顿电气与计算机工程系

Time
2024-02-29 15:00 ~ 16:00
Venue
Online
Meeting Info
腾讯会议
  • ID: 353-502-919
  • Password:
  • Abstract
    5′未翻译区域(UTR)位于信使RNA(mRNA)分子的起始部位,是一个关键的调节区域,对翻译过程及蛋白质表达水平具有重要影响。近年来,语言模型在解码蛋白质和基因组序列功能方面展现出了显著的有效性。本研究开发的5′UTR语言模型(UTR-LM),在多物种的内源性5′UTR上进行了预训练,并结合二级结构和最小自由能等监督信息进一步加以强化,以增强其预测能力。UTR-LM在多个下游任务中进行了微调,其在预测平均核糖体负载、mRNA翻译效率和表达水平等关键指标上均显示出优于现有基准方法的性能。此外,模型还成功应用于识别未注释的内部核糖体进入位点(IRES),在这一任务上的表现同样超过了基准方法。另外,本研究的另一重要成果是设计了一个包含211个新5′UTR的库,这些UTR根据模型预测的翻译效率进行了筛选。湿实验结果验证了这些新设计的5′UTR在提高蛋白质生产水平方面的有效性,其中表现最佳的top-1 5′UTR将蛋白质产量提高了32.5%,相比于传统的基准5′UTR。
    Bio
    目前担任斯坦福医学院丛乐教授与普林斯顿电气与计算机工程系王梦迪教授联合指导的博士后研究员。此前在上海交通大学获得致远荣誉博士学位,导师为魏冬青教授;并在卡尔加里大学进行联合培养博士研究,师从Dennis Salahub教授。研究领域主要集中在开发语言模型和生成模型,以促进RNA疫苗设计的创新。从2021年至今,共发表5篇第一作者论文,其中在Nature Machine Intelligence上发表了关于HLA-多肽预测及新抗原设计和5' UTR预测及设计的两篇论文,在Briefings in Bioinformatics上发表了关于药物-靶标相互作用和miRNA-疾病相互作用的三篇论文。这些出版物累计获得了666次引用,H指数达到13。
    Sponsor
  • Institute of Natural Sciences, Shanghai Jiao Tong University
  • Shanghai National Center for Applied Mathematics (SJTU Center)