Skip to content

本报告由 MaltSci•麦伴科研 基于最新文献和研究成果撰写


机器学习如何预测蛋白质功能?

摘要

在生物医学领域,蛋白质是生命活动的基础分子,其功能的预测对理解生物过程、药物开发及疾病诊断具有重要意义。随着基因组学和蛋白质组学的发展,科学家们已经积累了大量的蛋白质序列和结构数据。传统的蛋白质功能预测方法在处理复杂数据和高维特征时效率较低,准确性也受到限制,因此亟需开发更为高效的预测方法。近年来,机器学习技术的快速发展为蛋白质功能预测提供了新的机遇。机器学习能够从海量的生物数据中提取潜在模式,尤其是在处理复杂的非线性关系和高维数据时表现出色。本文回顾了机器学习在蛋白质功能预测中的应用现状,分析了不同机器学习算法的优缺点,并探讨了当前研究中的挑战与未来发展方向。机器学习通过处理大规模数据、整合多种信息源、利用深度学习技术以及提升模型可解释性等方式,正在逐步改变蛋白质功能预测的研究格局。尽管机器学习在这一领域展现了巨大的潜力,但仍面临数据集构建与标准化、模型可解释性以及跨领域应用的挑战。未来的研究应聚焦于改进数据集的质量与多样性、开发更复杂的模型,以及利用深度学习等先进技术提升对蛋白质动态和结构的理解,从而提高功能预测的准确性。

大纲

本报告将涉及如下问题的讨论。

  • 1 引言
  • 2 机器学习基础
    • 2.1 机器学习的定义与分类
    • 2.2 机器学习在生物医学中的应用
  • 3 蛋白质功能预测的传统方法
    • 3.1 实验方法
    • 3.2 生物信息学特征
  • 4 机器学习在蛋白质功能预测中的应用
    • 4.1 监督学习方法
    • 4.2 无监督学习方法
    • 4.3 深度学习方法
  • 5 当前挑战与未来方向
    • 5.1 数据集的构建与标准化
    • 5.2 模型的可解释性
    • 5.3 跨领域应用的潜力
  • 6 总结

1 引言

在生物医学领域,蛋白质是生命活动的基础分子,其功能的预测对理解生物过程、药物开发及疾病诊断具有重要意义。随着基因组学和蛋白质组学的发展,科学家们已经积累了大量的蛋白质序列和结构数据。然而,传统的蛋白质功能预测方法主要依赖于实验数据和生物信息学特征,这些方法在处理复杂数据和高维特征时效率较低,准确性也受到限制[1]。因此,亟需开发更为高效的预测方法,以提升蛋白质功能预测的准确性和效率。

近年来,机器学习(ML)技术的快速发展为蛋白质功能预测提供了新的机遇。机器学习能够从海量的生物数据中提取潜在模式,尤其是在处理复杂的非线性关系和高维数据时表现出色。通过训练模型,机器学习可以在不同类型的生物数据(如序列、结构和相互作用网络)中学习特征,从而实现对蛋白质功能的准确预测[2][3]。这使得机器学习在生物信息学和计算生物学中的应用越来越受到重视。

当前,机器学习在蛋白质功能预测中的应用已取得了一系列进展,尤其是在深度学习方法的推动下,预测精度显著提高。例如,使用深度卷积神经网络(CNN)直接从未对齐的氨基酸序列中预测蛋白质功能的研究显示,深度学习模型能够提供与传统比对方法相辅相成的精准预测[4]。此外,结合多种信息源的模型,如将序列特征与蛋白质相互作用网络结合的策略,进一步提升了预测性能[5]。

然而,尽管机器学习在蛋白质功能预测方面展现了巨大的潜力,但仍面临诸多挑战。例如,数据集的构建与标准化、模型的可解释性以及跨领域应用的潜力等问题亟待解决[1][6]。为此,本文旨在回顾机器学习在蛋白质功能预测中的应用现状,分析不同机器学习算法的优缺点,并探讨当前研究中的挑战与未来发展方向。

本文的组织结构如下:第二部分将介绍机器学习的基础知识,包括定义与分类,以及在生物医学中的应用;第三部分将回顾传统的蛋白质功能预测方法,具体分析实验方法和生物信息学特征;第四部分将重点讨论机器学习在蛋白质功能预测中的应用,涵盖监督学习、无监督学习和深度学习方法;第五部分将探讨当前面临的挑战与未来的发展方向;最后,第六部分将对本文进行总结。

通过系统性地总结现有文献,我们希望为研究人员提供一个清晰的视角,帮助他们理解如何利用机器学习技术推动蛋白质功能的研究。这不仅有助于推动基础生物学的进展,也为药物开发和疾病诊断提供了新的思路和方法。

2 机器学习基础

2.1 机器学习的定义与分类

本知识库信息不足,建议更换知识库或者补充相关文献。

2.2 机器学习在生物医学中的应用

机器学习(ML)在蛋白质功能预测中的应用日益广泛,主要通过构建和训练模型来分析蛋白质的序列、结构及其与其他分子的相互作用,以便预测其生物学功能。以下是机器学习在蛋白质功能预测中的几个关键方面。

首先,机器学习能够有效地处理和分析大规模的蛋白质序列数据。随着高通量技术的发展,生成了大量的蛋白质序列数据,这为机器学习提供了丰富的训练素材。通过利用这些数据,机器学习模型能够学习到蛋白质序列与其功能之间的复杂关系。比如,Freschlin等(2022年)强调了监督学习方法如何从实验数据中推断序列-功能映射,进而使蛋白质工程师能够高效地搜索序列空间,以发现具有广泛应用的有用蛋白质[7]。

其次,机器学习方法可以通过整合多种信息源来提升预测准确性。Yan等(2023年)指出,当前的研究已经开始使用序列、结构、蛋白质-蛋白质相互作用网络以及多信息源的融合来进行蛋白质功能预测。这种多维度的信息整合能够提供更全面的视角,从而提高模型的预测能力[1]。

深度学习,作为机器学习的一种重要分支,近年来在蛋白质功能预测中表现出色。Boadu等(2025年)回顾了深度学习方法在蛋白质功能预测中的发展,指出这些方法能够利用丰富的蛋白质数据,加速功能预测的进程。深度学习模型通过学习数据中的特征,可以自动提取复杂的模式,从而提高预测的准确性[2]。

此外,机器学习还在蛋白质结构预测中发挥了重要作用。Dahlström和Salminen(2024年)提到,机器学习模型,特别是AlphaFold,已经在蛋白质结构预测方面取得了显著进展。这些模型不仅能够预测蛋白质的三维结构,还能够为理解其功能提供重要线索[8]。

最后,机器学习的可解释性也是一个重要的研究方向。随着模型的复杂性增加,如何理解模型的决策过程成为一个挑战。研究者们正在努力提高模型的可解释性,以便更好地理解蛋白质功能与序列之间的关系,并为未来的研究提供指导[3]。

综上所述,机器学习通过处理大规模数据、整合多种信息源、利用深度学习技术以及提升模型可解释性等方式,正在逐步改变蛋白质功能预测的研究格局,为生物医学领域的研究和应用提供了强有力的支持。

3 蛋白质功能预测的传统方法

3.1 实验方法

机器学习在蛋白质功能预测中发挥了重要作用,特别是在处理新发现的蛋白质功能时。随着高通量测序技术的发展,蛋白质序列的生成变得快速且廉价,这导致已知蛋白质数量的激增。然而,识别这些新发现的蛋白质所执行的功能仍然是一项挑战。传统的实验方法通常耗时且成本高,无法快速满足对蛋白质序列的注释需求,因此计算方法,特别是机器学习方法应运而生[1]。

机器学习通过利用蛋白质序列、结构和蛋白质-蛋白质相互作用(PPI)网络等信息来进行功能预测。具体来说,机器学习模型能够通过对已知功能蛋白质的学习,识别出潜在的功能类别。对于未知功能的蛋白质,机器学习分类器能够在一定程度上进行功能预测,尽管这种能力可能受到训练数据的偏差影响[9]。

在机器学习的应用中,功能预测的模型通常依赖于不同的特征集。研究表明,使用相关性分析方法(如皮尔逊相关系数和雅卡尔相似系数)可以去除冗余功能,从而提高模型的预测准确性[10]。此外,深度学习方法也被引入以提高预测性能,深度学习能够充分利用蛋白质序列和相互作用网络的特征信息,从而提供更为准确的功能预测[11]。

例如,近年来一些研究使用深度学习框架(如DeepFunc)来进行蛋白质功能预测,结果显示该方法在准确性上优于传统方法[11]。另外,机器学习还能够通过进化信息和序列特征进行亚细胞定位预测,这进一步扩展了其在生物信息学中的应用范围[12]。

综上所述,机器学习通过利用大量的序列和结构数据,结合统计分析和深度学习技术,能够有效地预测蛋白质的功能,弥补了传统实验方法的不足,推动了生物学和药物发现领域的进展。

3.2 生物信息学特征

在生物信息学领域,蛋白质功能预测是一个重要且具有挑战性的任务。传统上,蛋白质功能的预测主要依赖于序列比对和功能注释数据库,但这些方法在面对没有显著同源序列的情况下往往表现不佳。因此,近年来,机器学习方法逐渐成为蛋白质功能预测的主要工具。

机器学习在蛋白质功能预测中的应用可以分为几个关键步骤。首先,特征选择是机器学习模型成功的关键。在这一过程中,研究人员需要从蛋白质的氨基酸序列中提取出与功能相关的特征。传统的特征提取方法包括使用序列比对和手工设计的特征,然而这些方法通常受到特征表达能力的限制[13]。为了解决这一问题,新的特征选择方法如FrankSum被提出,该方法通过选择生物学上显著的特征来提高预测性能[14]。

其次,深度学习技术的引入极大地推动了蛋白质功能预测的进展。深度学习模型,如卷积神经网络(CNN),能够自动从序列中学习特征,而无需依赖于手工设计的特征。这种方法通过扫描氨基酸序列,识别与特定功能相关的基序,并结合相似蛋白质的功能进行预测。例如,DeepGOPlus模型利用深度卷积神经网络与序列相似性预测相结合,达到了在功能预测评估中的优异表现[5]。

此外,基于图的神经网络(如PhiGnet)也被应用于蛋白质功能预测。这种方法通过从序列中提取进化特征,能够在缺乏结构信息的情况下仍然实现高效的功能预测[15]。这些方法利用蛋白质序列的统计特征,量化特定功能相关氨基酸的显著性,从而缩小序列与功能之间的差距。

在蛋白质功能预测的过程中,机器学习不仅提升了预测的准确性,还为研究人员提供了对生物系统的深入理解。例如,Holographic Convolutional Neural Network (H-CNN)通过模拟蛋白质结构中的物理相互作用,能够准确预测突变对蛋白质稳定性和结合能力的影响[16]。

总的来说,机器学习在蛋白质功能预测中的应用,通过特征选择、深度学习模型和图网络等方法,极大地提高了预测的效率和准确性。这些技术的发展不仅为基础生物学研究提供了新工具,也为药物开发和生物技术应用开辟了新的可能性。

4 机器学习在蛋白质功能预测中的应用

4.1 监督学习方法

机器学习在蛋白质功能预测中的应用主要依赖于监督学习方法,这些方法通过分析已知数据集中的序列与功能之间的关系,从而构建预测模型。监督学习的基本思想是利用带标签的训练数据,学习输入(如蛋白质序列)与输出(如功能)的映射关系,进而对未标记的数据进行预测。

在蛋白质功能预测的过程中,研究者们采用了多种机器学习技术。例如,Kevin K. Yang等人(2019年)介绍了一种基于机器学习的指导性进化方法,该方法能够在没有详细物理或生物路径模型的情况下,以数据驱动的方式预测序列如何映射到功能。通过学习已表征变体的特性,选择可能展现改进特性的序列,从而加速定向进化过程[17]。

另外,Chase R. Freschlin等人(2022年)强调了机器学习在理解和预测蛋白质序列、结构和功能之间复杂关系方面的革命性影响。他们指出,预测性序列-功能模型使蛋白质工程师能够有效搜索序列空间,以发现具有广泛应用的有用蛋白质。通过监督学习方法,从实验数据中推断序列-功能映射,以及新序列表示策略用于数据高效建模,这些都是当前研究的重点[7]。

在具体实现方面,深度学习框架也被广泛应用于蛋白质功能预测。Sam Gelman等人(2021年)提出了一种监督深度学习框架,通过深度突变扫描数据学习序列-功能映射,能够对新的、未表征的序列变体进行预测。他们的研究表明,能够捕捉非线性相互作用并在序列位置间共享参数的网络架构对学习序列与功能之间的关系至关重要[18]。

此外,Richa Dhanuka等人(2023年)综述了深度学习技术在蛋白质功能预测中的最新进展,指出通过使用丰富的蛋白质序列数据和深度学习技术,可以有效提高预测的准确性。该综述还讨论了在预测模型的可解释性方面需要探索的新方向[3]。

综上所述,机器学习特别是监督学习方法通过建立序列与功能之间的映射关系,不仅提高了蛋白质功能预测的准确性,也为生物实验提供了重要的假设和研究方向。这些技术的进步使得科学家能够在蛋白质工程和生物信息学领域中取得更大的突破。

4.2 无监督学习方法

机器学习在蛋白质功能预测中的应用,尤其是无监督学习方法,正在迅速发展并显示出良好的前景。无监督学习方法的核心在于其能够在没有标注数据的情况下,从大量的未标记数据中提取有用的信息。这种方法对于蛋白质功能预测尤为重要,因为许多蛋白质的功能尚未被实验验证或描述。

首先,许多研究表明,机器学习可以有效地推断蛋白质序列与功能之间的关系,而不需要对底层生物机制有详细的理解。例如,Song等人(2021年)提出了一种正负标记学习(Positive-Unlabeled Learning, PU)框架,能够从大规模的深度突变扫描(Deep Mutational Scanning, DMS)数据中推断序列-功能关系。该方法在十个大规模序列-功能数据集上表现出色,能够识别出关键残基并设计出高度稳定的酶[19]。

此外,Xu等人(2009年)提出了一种半监督学习的方法,该方法利用少量标记实例构建初始分类器,然后利用未标记实例来优化分类器。这种方法在预测蛋白质亚细胞定位时显示出了显著的性能提升,表明无监督学习可以有效减少标记数据的需求,同时提高预测的准确性[20]。

在功能预测方面,Han等人(2006年)也指出,机器学习方法能够独立于序列相似性预测蛋白质的功能类别,尤其适用于低或无同源性蛋白质。这些方法的应用潜力巨大,能够补充传统的基于对齐和聚类的功能预测方法[21]。

综上所述,无监督学习方法在蛋白质功能预测中展现了强大的能力,能够在缺乏大量标记数据的情况下,利用现有的未标记数据进行有效的功能推断。这些方法的成功应用为未来蛋白质功能的研究和新功能的发现提供了新的思路和工具。

4.3 深度学习方法

机器学习,特别是深度学习方法,在蛋白质功能预测中扮演着重要角色。这些方法通过分析蛋白质的序列、结构、相互作用以及其他相关信息,来生成关于蛋白质功能的假设,从而推动生物实验的设计和生物系统的研究。以下是深度学习在蛋白质功能预测中的一些关键应用和进展。

首先,深度学习方法能够处理大量的蛋白质序列数据,利用神经网络自动提取特征。例如,Kulmanov等人(2020)开发的DeepGOPlus方法结合了深度卷积神经网络(CNN)和序列相似性预测,能够从序列中扫描出与蛋白质功能相关的基序,并结合相似蛋白的功能信息进行预测。这种方法在CAFA3评估中表现优异,分别在生物过程(BPO)、分子功能(MFO)和细胞组分(CCO)评估中取得了Fmax值0.390、0.557和0.614[5]。

其次,深度学习的零-shot学习能力也被应用于蛋白质功能预测。Kulmanov和Hoehndorf(2022)提出的DeepGOZero模型,利用模型理论学习本体嵌入,结合神经网络,能够对没有或仅有少量注释的功能进行预测。这一方法可以在没有训练数据的情况下,预测与本体类相关的蛋白质功能,从而扩展了功能预测的适用范围[22]。

此外,深度学习还可以结合多种数据源以提高预测准确性。Zhang等人(2023)提出的Prot2GO模型,能够集成蛋白质序列和蛋白质相互作用网络数据,使用改进的随机游走算法提取PPI网络特征,并通过卷积神经网络和递归神经网络捕捉序列中的长程关联。这种多源数据整合的方法显著提高了预测性能[23]。

在模型设计方面,Dhanuka等人(2022)提出了一种半监督自编码器方法,通过训练932个自编码器分别对应932种生物过程和585种分子功能,利用重构损失作为特征来分类蛋白质序列。这种方法在测试中取得了良好的效果,展示了深度学习在蛋白质功能预测中的潜力[24]。

最后,深度学习的进步还推动了对蛋白质功能预测模型可解释性的需求。Dhanuka等人(2023)的综述指出,当前的深度学习模型在准确性和可解释性之间需要找到平衡,以更好地理解蛋白质结构与功能之间的关系[3]。

综上所述,深度学习通过自动特征提取、多数据源整合、零-shot学习等方法,正在不断提升蛋白质功能预测的准确性和效率。这些进展为生物信息学领域的研究提供了强有力的工具,推动了对蛋白质功能的深入理解。

5 当前挑战与未来方向

5.1 数据集的构建与标准化

机器学习在蛋白质功能预测中扮演着越来越重要的角色,尤其是在数据集的构建与标准化方面。传统的实验技术在快速增长的蛋白质序列注释需求面前显得不足,因此,计算方法特别是机器学习方法的应用应运而生。机器学习方法能够处理大量的蛋白质数据,从序列、结构到蛋白质-蛋白质相互作用网络等多种信息源进行功能预测[1]。

在数据集的构建方面,机器学习依赖于高质量的训练数据集,这些数据集应包含足够多的样本以覆盖不同的蛋白质功能和结构特征。一个重要的进展是创建标准化的数据集,例如“蛋白质分类基准集合”,该集合为机器学习方法的性能比较提供了标准数据集,包括序列和结构数据,且每个数据集根据正负样本、训练和测试集进行了细分[25]。这种标准化的数据集能够帮助研究人员在相同条件下评估不同算法的效果,促进了方法的改进与创新。

然而,尽管已有显著进展,机器学习在蛋白质功能预测中仍面临许多挑战。首先,数据集的多样性和代表性是一个主要问题。许多已知的蛋白质功能与其序列相似性不高,导致现有的机器学习模型在面对低或无同源性蛋白质时表现不佳[21]。其次,如何有效整合来自不同来源的数据(如序列、结构、功能等)以提高预测准确性也是当前的一个重要研究方向[1]。

未来的研究方向应聚焦于以下几个方面:一是改进数据集的构建和标准化流程,以确保数据的多样性和质量;二是开发更为复杂的模型,以捕捉蛋白质功能的多样性和复杂性;三是利用深度学习等先进的机器学习技术,以提升对蛋白质动态和结构的理解,从而提高功能预测的准确性[2]。此外,随着高通量技术的进步,未来有望生成更大规模的训练数据集,这将进一步推动机器学习在蛋白质功能预测中的应用[26]。

总之,机器学习在蛋白质功能预测中的应用前景广阔,但仍需在数据集的构建与标准化、模型的复杂性及其在实际应用中的有效性等方面进行深入研究与探索。

5.2 模型的可解释性

机器学习在蛋白质功能预测中的应用正逐渐成为生物信息学领域的重要研究方向。通过分析蛋白质的序列、结构、相互作用及其他相关信息,机器学习方法能够为生物实验生成假设并深入研究生物系统。然而,这一领域面临着多重挑战,同时也存在未来发展的方向。

当前,机器学习方法主要依赖于大量的实验数据和计算数据,通过训练模型来预测蛋白质的功能。具体来说,深度学习技术的进步使得对蛋白质功能的预测速度显著加快,尤其是在处理大规模蛋白质序列数据时表现出色[2]。例如,深度学习模型能够从蛋白质的氨基酸序列中提取特征,并将这些特征用于功能分类[27]。

然而,尽管机器学习在蛋白质功能预测中取得了一些成功,仍然存在许多挑战。首先,许多机器学习模型的“黑箱”特性使得其决策过程缺乏透明度,导致模型的可解释性不足[28]。这对生物学家来说是一个重要问题,因为他们需要理解模型的预测背后的生物学机制,以便将这些预测转化为生物学假设和实验设计。

为了解决这些问题,研究者们提出了一些可能的方向。例如,在蛋白质功能预测中,强调模型的可解释性可以提高生物学家对预测结果的信任,从而促进对数据的新见解和假设的提出[29]。此外,未来的研究可以集中在开发更加透明的模型和方法上,这些方法不仅能提供高准确率的预测,还能解释预测结果背后的生物学逻辑。

综上所述,机器学习在蛋白质功能预测中的应用正处于快速发展之中,尽管面临诸多挑战,尤其是模型的可解释性问题,但未来的研究方向将着重于提升模型的透明度和生物学解释能力,以促进这一领域的进一步发展。

5.3 跨领域应用的潜力

机器学习(ML)在蛋白质功能预测中发挥着越来越重要的作用,特别是在处理蛋白质序列、结构和相互作用等复杂数据时。机器学习通过利用大量的生物数据,尤其是高通量技术生成的蛋白质序列数据,来建立模型,从而实现对蛋白质功能的预测。这一过程通常涉及以下几个关键步骤和方法。

首先,机器学习可以通过序列到功能的映射来进行预测。近年来,许多基于机器学习的算法被开发出来,以提高蛋白质功能预测的准确性。例如,利用深度学习的方法,可以从蛋白质的氨基酸序列中提取特征,进而预测其功能。相关研究表明,深度学习在处理蛋白质功能预测任务时,表现出比传统机器学习方法更强的能力[11]。

其次,机器学习在蛋白质工程中的应用也日益增多。通过指导定向进化,机器学习可以优化蛋白质的功能,而无需对底层物理或生物途径有详细的模型。这种数据驱动的方法能够从已表征变体的特性中学习,并选择可能表现出改进特性的序列[17]。例如,机器学习方法在蛋白质-配体结合位点的预测中表现出色,这对于药物发现至关重要[6]。

尽管机器学习在蛋白质功能预测中取得了显著进展,但仍面临一些挑战。首先,现有的预测模型在处理低相似性或无同源性蛋白质时,准确性较低。针对这一问题,研究者们提出了多种方法,如基于蛋白质序列派生属性的机器学习技术,以提高功能预测的准确性[21]。此外,如何有效整合来自不同来源的信息(如序列、结构、蛋白质-蛋白质相互作用网络等)以提高预测性能,仍然是一个重要的研究方向[1]。

未来,机器学习在蛋白质功能预测中的潜力仍然巨大。随着数据科学和深度学习技术的不断进步,机器学习有望在蛋白质工程、药物发现等多个领域中实现更广泛的应用。尤其是在探索未知蛋白质功能和揭示蛋白质序列与功能之间关系方面,机器学习将发挥越来越重要的作用[3]。通过持续优化模型和算法,结合高通量数据生成的能力,机器学习能够推动生物医学研究的进步,为新药开发和生物技术的应用提供支持。

6 总结

本综述回顾了机器学习在蛋白质功能预测中的应用现状与挑战,强调了其在生物医学研究中的重要性。机器学习技术,尤其是深度学习,正在逐步改变传统的蛋白质功能预测方法,通过处理大规模数据、整合多种信息源以及提升模型的可解释性,显著提高了预测的准确性。然而,当前的研究仍面临数据集构建、模型可解释性和跨领域应用等多重挑战。未来的研究应集中在改进数据标准化、提升模型透明度以及探索新的算法上,以更好地推动蛋白质功能预测的研究和应用。这不仅将为基础生物学提供新的视角,也将为药物开发和疾病诊断带来新的思路和方法。

参考文献

  • [1] Tian-Ci Yan;Zi-Xuan Yue;Hong-Quan Xu;Yu-Hong Liu;Yan-Feng Hong;Gong-Xing Chen;Lin Tao;Tian Xie. A systematic review of state-of-the-art strategies for machine learning-based protein function prediction.. Computers in biology and medicine(IF=6.3). 2023. PMID:36680931. DOI: 10.1016/j.compbiomed.2022.106446.
  • [2] Frimpong Boadu;Ahhyun Lee;Jianlin Cheng. Deep learning methods for protein function prediction.. Proteomics(IF=3.9). 2025. PMID:38996351. DOI: 10.1002/pmic.202300471.
  • [3] Richa Dhanuka;Jyoti Prakash Singh;Anushree Tripathi. A Comprehensive Survey of Deep Learning Techniques in Protein Function Prediction.. IEEE/ACM transactions on computational biology and bioinformatics(IF=3.4). 2023. PMID:37027658. DOI: 10.1109/TCBB.2023.3247634.
  • [4] Theo Sanderson;Maxwell L Bileschi;David Belanger;Lucy J Colwell. ProteInfer, deep neural networks for protein functional inference.. eLife(IF=6.4). 2023. PMID:36847334. DOI: .
  • [5] Maxat Kulmanov;Robert Hoehndorf. DeepGOPlus: improved protein function prediction from sequence.. Bioinformatics (Oxford, England)(IF=5.4). 2020. PMID:31350877. DOI: 10.1093/bioinformatics/btz595.
  • [6] Orhun Vural;Leon Jololian. Machine learning approaches for predicting protein-ligand binding sites from sequence data.. Frontiers in bioinformatics(IF=3.9). 2025. PMID:39963299. DOI: 10.3389/fbinf.2025.1520382.
  • [7] Chase R Freschlin;Sarah A Fahlberg;Philip A Romero. Machine learning to navigate fitness landscapes for protein engineering.. Current opinion in biotechnology(IF=7.0). 2022. PMID:35413604. DOI: 10.1016/j.copbio.2022.102713.
  • [8] Käthe M Dahlström;Tiina A Salminen. Apprehensions and emerging solutions in ML-based protein structure prediction.. Current opinion in structural biology(IF=7.0). 2024. PMID:38631107. DOI: 10.1016/j.sbi.2024.102819.
  • [9] Ali Al-Shahib;Rainer Breitling;David R Gilbert. Predicting protein function by machine learning on amino acid sequences--a critical evaluation.. BMC genomics(IF=3.7). 2007. PMID:17374164. DOI: 10.1186/1471-2164-8-78.
  • [10] Richa Dhanuka;Jyoti Prakash Singh. Protein function prediction using functional inter-relationship.. Computational biology and chemistry(IF=3.1). 2021. PMID:34736126. DOI: 10.1016/j.compbiolchem.2021.107593.
  • [11] Zhibin Lv;Chunyan Ao;Quan Zou. Protein Function Prediction: From Traditional Classifier to Deep Learning.. Proteomics(IF=3.9). 2019. PMID:31187588. DOI: 10.1002/pmic.201900119.
  • [12] Zhijun Liao;Gaofeng Pan;Chao Sun;Jijun Tang. Predicting subcellular location of protein with evolution information and sequence-based deep learning.. BMC bioinformatics(IF=3.3). 2021. PMID:34686152. DOI: 10.1186/s12859-021-04404-0.
  • [13] Jérôme Tubiana;Dina Schneidman-Duhovny;Haim J Wolfson. ScanNet: an interpretable geometric deep learning model for structure-based protein binding site prediction.. Nature methods(IF=32.1). 2022. PMID:35637310. DOI: 10.1038/s41592-022-01490-7.
  • [14] Ali Al-Shahib;Rainer Breitling;David Gilbert. FrankSum: new feature selection method for protein function prediction.. International journal of neural systems(IF=6.4). 2005. PMID:16187402. DOI: 10.1142/S0129065705000281.
  • [15] Yaan J Jang;Qi-Qi Qin;Si-Yu Huang;Arun T John Peter;Xue-Ming Ding;Benoît Kornmann. Accurate prediction of protein function using statistics-informed graph networks.. Nature communications(IF=15.7). 2024. PMID:39097570. DOI: 10.1038/s41467-024-50955-0.
  • [16] Michael N Pun;Andrew Ivanov;Quinn Bellamy;Zachary Montague;Colin LaMont;Philip Bradley;Jakub Otwinowski;Armita Nourmohammad. Learning the shape of protein microenvironments with a holographic convolutional neural network.. Proceedings of the National Academy of Sciences of the United States of America(IF=9.1). 2024. PMID:38300863. DOI: 10.1073/pnas.2300838121.
  • [17] Kevin K Yang;Zachary Wu;Frances H Arnold. Machine-learning-guided directed evolution for protein engineering.. Nature methods(IF=32.1). 2019. PMID:31308553. DOI: 10.1038/s41592-019-0496-6.
  • [18] Sam Gelman;Sarah A Fahlberg;Pete Heinzelman;Philip A Romero;Anthony Gitter. Neural networks to learn protein sequence-function relationships from deep mutational scanning data.. Proceedings of the National Academy of Sciences of the United States of America(IF=9.1). 2021. PMID:34815338. DOI: 10.1073/pnas.2104878118.
  • [19] Hyebin Song;Bennett J Bremer;Emily C Hinds;Garvesh Raskutti;Philip A Romero. Inferring Protein Sequence-Function Relationships with Large-Scale Positive-Unlabeled Learning.. Cell systems(IF=7.7). 2021. PMID:33212013. DOI: 10.1016/j.cels.2020.10.007.
  • [20] Qian Xu;Derek Hao Hu;Hong Xue;Weichuan Yu;Qiang Yang. Semi-supervised protein subcellular localization.. BMC bioinformatics(IF=3.3). 2009. PMID:19208149. DOI: 10.1186/1471-2105-10-S1-S47.
  • [21] Lianyi Han;Juan Cui;Honghuang Lin;Zhiliang Ji;Zhiwei Cao;Yixue Li;Yuzong Chen. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity.. Proteomics(IF=3.9). 2006. PMID:16791826. DOI: 10.1002/pmic.200500938.
  • [22] Maxat Kulmanov;Robert Hoehndorf. DeepGOZero: improving protein function prediction from sequence and zero-shot learning based on ontology axioms.. Bioinformatics (Oxford, England)(IF=5.4). 2022. PMID:35758802. DOI: 10.1093/bioinformatics/btac256.
  • [23] Xiaoshuai Zhang;Lixin Wang;Hucheng Liu;Xiaofeng Zhang;Bo Liu;Yadong Wang;Junyi Li. Prot2GO: Predicting GO Annotations From Protein Sequences and Interactions.. IEEE/ACM transactions on computational biology and bioinformatics(IF=3.4). 2023. PMID:34971539. DOI: 10.1109/TCBB.2021.3139841.
  • [24] Richa Dhanuka;Anushree Tripathi;Jyoti P Singh. A Semi-Supervised Autoencoder-Based Approach for Protein Function Prediction.. IEEE journal of biomedical and health informatics(IF=6.8). 2022. PMID:35349463. DOI: 10.1109/JBHI.2022.3163150.
  • [25] Paolo Sonego;Mircea Pacurar;Somdutta Dhir;Attila Kertész-Farkas;András Kocsor;Zoltán Gáspári;Jack A M Leunissen;Sándor Pongor. A Protein Classification Benchmark collection for machine learning.. Nucleic acids research(IF=13.1). 2007. PMID:17142240. DOI: 10.1093/nar/gkl812.
  • [26] Li-E Zheng;Shrishti Barethiya;Erik Nordquist;Jianhan Chen. Machine Learning Generation of Dynamic Protein Conformational Ensembles.. Molecules (Basel, Switzerland)(IF=4.6). 2023. PMID:37241789. DOI: 10.3390/molecules28104047.
  • [27] Mohamed E M Elhaj-Abdou;Hassan El-Dib;Amr El-Helw;Mohamed El-Habrouk. Deep_CNN_LSTM_GO: Protein function prediction from amino-acid sequences.. Computational biology and chemistry(IF=3.1). 2021. PMID:34601431. DOI: 10.1016/j.compbiolchem.2021.107584.
  • [28] Chun-Xiang Peng;Fang Liang;Yu-Hao Xia;Kai-Long Zhao;Ming-Hua Hou;Gui-Jun Zhang. Recent Advances and Challenges in Protein Structure Prediction.. Journal of chemical information and modeling(IF=5.3). 2024. PMID:38109487. DOI: 10.1021/acs.jcim.3c01324.
  • [29] Alex A Freitas;Daniela C Wieser;Rolf Apweiler. On the importance of comprehensible classification models for protein function prediction.. IEEE/ACM transactions on computational biology and bioinformatics(IF=3.4). 2010. PMID:20150679. DOI: 10.1109/TCBB.2008.47.

麦伴智能科研服务

在麦伴科研 (maltsci.com) 搜索更多文献

机器学习 · 蛋白质功能预测 · 深度学习 · 生物信息学 · 数据集标准化


© 2025 MaltSci 麦伴科研