JGG|我室胥国勇团队开发注释植物代表性转录本新方法

2024320日,Journal of Genetics and Genomics在线发表了我室胥国勇教授团队题为“RNAirport: a deep neural network-based database characterizing representative gene models in plants”的研究论文。该研究通过开发排名算法和深度学习模型来注释拟南芥、水稻、玉米、棉花和大豆基因的代表性转录本,其aS、aTSS代表性转录本GFF注释文档将为植物基因克隆和多维组学研究提供更准确的转录本序列信息。

QQ截图20240325095352.png

研究针对基因精准注释中的第二个问题,即转录本的序列信息开展工作。首先,开发了基于符号秩和检验的排名算法,用于鉴定由于aS引起的代表性转录本,即在同一个样本中丰度最高、在不同样本中出现频率最高的转录本异构体。其次,使用CAGE-Seq实验数据确定了由于aTSS引起的丰度最高的5′-leader的末端;或者利用训练得到的5′leaderP神经网络模型,预测不含有CAGE-Seq实验数据的基因或物种5′-leader末端的CAGE分布模式。预测结果在5′-RACE实验中得到验证。最后,该研究将代表性转录本部署到RNAirport网站(http://www.rnairport.com/leader5P/)上,使5′leaderP实现在线和本地化使用。该研究仅在二倍体植物中实现,对于多倍体物种以及aPA等情况还需要进一步尝试。

640.webp.jpg

该研究实现了对植物代表性转录本序列信息的精准注释,为下一阶段RNA调控元件和阅读框的鉴定和注释奠定基础。