跨膜蛋白跨越脂质双分子层,分为两种主要结构类,即螺旋状和桶状。我们介绍了 DeepTMHMM,这是一种基于深度学习蛋白质语言模型的算法,可以以前所未有的精度检测和预测 α-螺旋和 β-桶跨膜蛋白的拓扑。DeepTMHMM 可扩展到蛋白质组,并涵盖生命的所有领域,这使其成为宏基因组学分析的理想选择。
在过去的几年中,使用深度学习方法进行蛋白质结构预测已经取得了一些进展。在这个项目中,我们研究了深度学习预测跨膜蛋白的膜拓扑结构。跨膜蛋白与药物开发相关,因为它们占所有人类药物靶点的50%以上。DeepTMHMM 是目前预测α -螺旋和β -桶跨膜蛋白拓扑结构最完整、性能最好的方法。该模型通过预训练的语言模型对初级氨基酸序列进行编码,并通过状态空间模型对拓扑进行解码,从而以前所未有的精度产生拓扑和类型预测。DeepTMHMM 使扫描全蛋白质组成为可能,以便检测两类跨膜蛋白,我们预计我们的方法对研究界非常有价值。
a.考虑的蛋白质类型的蛋白质拓扑结构的状态空间模型。1a顶部为AlphaTM、SP+TM、Glob和SP+Glob拓扑,底部为原核β桶和SP+Glob拓扑。蛋白质序列从n端开始(为了清晰地在图中分开),在c端结束,箭头表示向其他“区室”的过渡。该模型可以在预先指定的范围内,在每个隔间内停留若干个残差。
b. DeepTMHMM神经网络架构由ESM1-b模型(如图“Embedding”所示)、双向LSTM、带dropout的密集层和最后的CRF解码器层组成。
这个输入文件只有一个文件可以是蛋白序列文件,例如:
>GLR1_DROME Glutamate receptor 1 OS=Drosophila melanogaster GN=GluRIA PE=1 SV=2
MHSRLKFLAYLHFICASSIFWPEFSSAQQQQQTVSLTEKIPLGAIFEQGTDDVQSAFKYAMLNHNLNVSSRRFELQAYVDVINTADAFKLSRLICNQFSRGVYSMLGAVSPDSFDTLHSYSNTFQMPFVTPWFPEKVLAPSSGLLDFAISMRPDYHQAIIDTIQYYGWQSIIYLYDSHDGLLRLQQIYQELKPGNETFRVQMVKRIANVTMAIEFLHTLEDLGRFSKKRIVLDCPAEMAKEIIVQHVRDIKLGRRTYHYLLSGLVMDNHWPSDVVEFGAINITGFRIVDSNRRAVRDFHDSRKRLEPSGQSQSQNAGGPNSLPAISAQAALMYDAVFVLVEAFNRILRKKPDQFRSNHLQRRSHGGSSSSSATGTNESSALLDCNTSKGWVTPWEQGEKISRVLRKVEIDGLSGEIRFDEDGRRINYTLHVVEMSVNSTLQQVAEWRDDAGLLPLHSHNYASSSRSASASTGDYDRNHTYIVSSLLEEPYLSLKQYTYGESLVGNDRFEGYCKDLADMLAAQLGIKYEIRLVQDGNYGAENQYAPGGWDGMVGELIRKEADIAISAMTITAERERVIDFSKPFMTLGISIMIKKPVKQTPGVFSFLNPLSQEIWISVILSYVGVSFVLYFVTRFPPYEWRIVRRPQADSTAQQPPGIIGGATLSEPQAHVPPVPPNEFTMLNSFWYSLAAFMQQGCDITPPSIAGRIAAAVWWFFTIILISSYTANLAAFLTVERMVAPIKTPEDLTMQTDVNYGTLLYGSTWEFFRRSQIGLHNKMWEYMNANQHHSVHTYDEGIRRVRQSKGKYALLVESPKNEYVNARPPCDTMKVGRNIDTKGFGVATPIGSPLRKRLNEAVLTLKENGELLRIRNKWWFDKTECNLDQETSTPNELSLSNVAGIYYILIGGLLLAVIVAIMEFFCRNKTPQLKSPGSNGSAGGVPGMLASSTYQRDSLSDAIMHSQAKLAMQASSEYDERLVGVELASNVRYQYSM
在线网址DeepTMHMM,在线使用还是非常简单,序列少可以优先选择在线操作。
线上分析对数据量要求有一定局限性:
粘贴序列测试结果:
或者在DeepTMHMM在线分析,结果是一样的。
pip3 install pybiolib
测试安装是否成功:
biolib run DTU/DeepTMHMM --help
usage: wrapper.py
[-h]
[--fasta FASTA]
[--N_SLEEP_SECONDS N_SLEEP_SECONDS]
[--local]
[--verbose]
WARNING:
Wrong
DeepTMHMM
version
downloaded.
Please use
biolib run
'DTU/DeepTM
HMM:1.0.24'
optional arguments:
-h, --help
show this
help
message and
exit
--fasta FASTA
--N_SLEEP_SECONDS N_SLEEP_SECONDS
--local
Connect to
localhost
monolith
--verbose
Connect to
localhost
monolith
--fasta 输入蛋白序列
--local 从终端本地运行,这里需要安装Docker才能使用
其他参数根据自己使用的环境设置。
测试例子来自在线分析上的一个序列,并且启用预测:
biolib run DTU/DeepTMHMM --fasta test.fa
#2024-08-09 03:44:18,581 | INFO : Extracted zip file to: output/
#2024-08-09 03:44:18,581 | INFO : Done in 4.41 seconds
生产文件夹 biolib_results/,里面有很多个文件:
再看一下TMRs.gff3文件:
第一列:序列名称
第二列:预测类型
第三列:起始位置
第四列:终止位置
Jeppe Hallgren, Konstantinos D. Tsirigos, Mads Damgaard Pedersen, José Juan Almagro Armenteros, Paolo Marcatili, Henrik Nielsen, Anders Krogh, Ole Winther bioRxiv 2022.04.08.487609.
桓峰基因,铸造成功的您!
未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,
敬请期待!!
桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/
桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/