- A+
分享一篇发表在Science上的文章,题目为“Protein codes promote selective subcellular compartmentalization”,文章通讯作者是来自麻省理工学院的Regina Barzilay教授与Richard A. Young教授。Barzilay课题组致力于发展用于先导化合物筛选和临床诊疗的机器学习算法;Young课题组致力于研究病变组织中基因表达的变化。
在正常的生理活动中,细胞需要将约100亿个蛋白质分子精准分配到不同的亚细胞区室(如核仁、核斑点、染色质等)以执行特定功能。长期以来,蛋白质的三维结构被认为是其功能的核心,但区室化机制仍不明确。传统观点认为,蛋白质通过特异性相互作用或弱多价非共价作用形成凝聚体(condensates)。近年来,研究发现不同凝聚体内部具有独特的化学微环境,暗示蛋白质可能通过序列特征适配特定区室的溶剂环境。
在本文中,作者发展了一种名为ProtGPS的深度学习模型,揭示了蛋白质序列中隐藏着一种未被识别的“定位代码”,指导其选择性分布到特定区室之中。
首先,作者基于UNIPROT和CD-code数据库,共收集了5480个已知定位于12个凝聚体中的蛋白序列信息。作者使用ESM2(Evolutionary Scale Modeling)预训练模型处理蛋白质序列信息,针对凝聚体定位构建多分类器,对分布概率进行预测。最终模型在12种区室的预测中均表现出理想的准确性(AUC-ROC位于0.83–0.95区间),显著优于随机森林或线性回归模型。
接下来,作者将ProtGPS模型用于凝聚体定位的蛋白质设计。结合马尔可夫链蒙特卡洛(MCMC)算法,约束生成序列满足自然蛋白质的化学空间、内在无序性(IDRs)且在目标区室的分类概率≥0.95。接下来,以mCherry荧光蛋白为载体,作者设计并合成了大概100 AAs长度的嵌合蛋白,通过流式分选和活细胞成像验证其定位效果。以核仁为例,MCMC生成的10个蛋白中,4个(NUC1/2/5/6)在活细胞中显著富集于核仁,其分配比(K值)较对照提升5–15倍。
最后,作者将ProtGPS模型用于揭示蛋白致病突变的致病机制。从ClinVar数据库筛选20.5万个致病突变(含截断突变和单点突变),利用ProtGPS预测突变对定位的影响,并通过Shannon熵和Wasserstein距离量化信息变化,截断突变导致区室预测的不确定性(Shannon熵)显著增加,单点突变次之。
随后,作者在细胞中表达突变蛋白,观察其定位异常。20个致病突变蛋白中,截断突变(如DAXX-R318Ter、TCOF1-Q55Ter)引发核仁或核斑点结构紊乱,而单点突变(如BRD3-R334S)仅引起轻微变化,与Wasserstein距离的预测趋势一致。
总体而言,本文发展的化学酶法为甲基蛋白质组学研究提供了强有力的工具,有望推动精准医学和表观遗传药物开发。
本文作者:TZS
责任编辑:MB
DOI:10.1126/science.adq263
原文链接:https://doi.org/10.1126/science.adq263

目前评论:0