所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

大数据对药物开发阶段影响的批判性评估:文献综述

马哈茂德·曼西*

英国斯托克-特伦特河畔斯塔福德郡大学生命科学与教育系ST4 2DE

*通讯作者:
马哈茂德·曼西
生命科学与教育系,
斯塔福德郡大学
特伦特河畔斯托克,
ST4 2 de,
联合王国
电子邮件:
(电子邮件保护)

收到:03/01/2022,稿件编号:jpps - 22 - 51721;编辑分配:10/01/2022, Pre QC号jpps - 22 - 51721 (PQ);综述:24/01/2022, QC号jpps - 22 - 51721;修改后:30/01/2022,稿件编号:jpps - 22 - 51721 (A);发表:08/02/2022, doi: 10.4172/2320-1215.11.1.006

更多相关文章请访问药学与药学研究与评论“雷竞技苹果下载,

摘要

药物生产已经成为一种昂贵和耗时的过程,其效率非常低,而且未能考虑到人类在药物反应和毒性方面的差异。在过去的十年中,一种新兴的“大数据”方法以指数级的速度增长,该方法专注于化合物电子资源的进步、紊乱基因型标记、操作输出以及关于交叉遗传异常和毒性作用的临床知识。这种范式转变允许对新药或现有药物的循环指标进行系统、高通量和快速检测,以检测每个患者特有的感染分子异常。数字技术领域和交互式基因检测领域对大数据的日益参与,使定制化精准医疗变得更加容易。保证(QA)在制药行业至关重要,可以确保药品按照安全和统一的标准制备。质量保证是一个广义的术语,指的是在药物的研究、开发、生产和销售阶段可能影响药物质量的任何因素。QA专家负责实施各种有助于确保药品质量的方法。

关键字

大数据,药物发现,靶标发现,药物开发,疾病

简介

生物信息学、测序和数据处理技术的进步导致了大量复杂数据的产生,可用于药物开发。为了进一步调查和解释疾病以及寻找创新药物,分析这些数据库正变得越来越流行。目前在基础科学和临床科学领域的开放数据项目极大地扩展了现在对公众开放的数据形式。过去几年,大数据(BD)已成功应用于多个领域,包括药物开发过程[1]。

在这个关键的评估中,将探讨BD对药物开发过程的改造程度。

药物开发通常被证明是一个漫长而昂贵的多步骤操作。传统上,潜在的药物靶点是通过还原方法或封闭世界假设(CWA)来识别和评估的,这种方法专注于生物学的有限解释,仅限于修改一种分子机制。由于我们对系统生物学知识的贫乏,药物研究和生产的每个阶段都充满了复杂性,最终以难以置信的低成功率达到顶峰。一种现代药物需要大量的资金,估计需要9-12年的时间才能进入行业。2]。

现有的药物开发困难包括;(i)充分定义和/或跟踪相关分子过程的有限能力;(ii)缺乏足够的实验室机制来评估产品药物/扰动及其治疗潜力;(iii)相对被忽视的化合物的许多相关的大量脱靶后果(可被称为“多药理学”[3.]。尽管研发投资有所增加,但药物开发后期耗竭的发生率不断上升,突出了药物开发的新替代品的必要性[4]。

文献综述

大数据

直到最近,研究都是在小型数据集的基础上进行的,这些数据集是以严格监管的格式生成的,利用测试策略限制了它们的规模、重要性和数量,并且在管理和开发方面非常严格。虽然这些小数据中有几个相当重要,但它们缺乏BD的其他特征。例如,全国人口普查通常每十年进行一次,一旦进行,就会提出大约30个正式问题,很难更改或插入查询。另一方面,BD是不断生产的,在加工过程中更加通用和高效[5]。

另外,其他人没有详述构成BD本质的本体论特征,而是从收集和分析它或在一台计算机上维护它所涉及的技术复杂性来描述它。BD测试传统的分析和模拟方法,并推动计算能力的边界,以分析它们[6]。

“大数据”一词通常适用于以公正的方式收集定量数据,排除之前的假设,然后使用数据处理技术对其进行分析,从而产生新概念的方法。对从公开数据中收集的核酸和酶基因组的研究,以及基于DNA微阵列的遗传密码转录组和DNA分子变异性的结果,为细胞遗传学的这种方法做出了贡献[7]。

随着遗传分析技术的指数级发展和国际数据管理和分布技术的显著进步,大数据方法得到了增强,并与包括表观基因组属性、生物本体、结构特征、膜蛋白、电子健康记录、临床研究注册和临床安全在内的各种形式的数据相结合。与此同时,专门为这种形式的数据设计的数据收集算法和技术被广泛建立[8]。

计算方法适应日益增长的数据库规模和复杂性已成为大数据研究的重大挑战。例如,多重假设检验(MHT)的p值调整是一个关键问题,试图在消除不准确的否定时监测错误的探索。此外,高维信息经常需要通过数据模拟策略(包括关键元素去除、非负神经网络和数据的分子机制改进)来消除维数。以遗传和医学证据为中心,几种不受监控和控制的机器学习算法已应用于生物大数据研究,以对未知感染亚群进行分类,阐明新的疾病目标,并预测治疗结果[9]。

可用于药物研发的大数据

疾病机制的识别和解释伴随靶点检测一直是药物开发的第一步,有助于药物发现。药物开发中的一种病症识别模式是从症状驱动的疾病识别方法过渡到基于预测诊断等分子元素的精确医疗实践。这将导致更有效的筛查[10]。建立一种新的疾病分类需要所有疾病的分子标记。此外,疾病意识的最佳程度将包括所有的分子修饰,从DNA到RNA到蛋白质,以及外部原因的影响[11]。

在DNA阶段,通常用于分类疾病的一种形式的DNA测序方差是单核苷酸多态性(SNPs),在患者组中唯一出现。拷贝数变异(CNVs)代表了与疾病相关的相对广泛的基因突变领域。snp和CNVs可以用全基因组关联研究(GWASs)和整个解码来发现。变异,特别是体细胞遗传变化,通过恶性肿瘤的后代筛查被广泛研究,以确定对细胞发育有利的遗传变异[12]。

基因表达(主要是mRNA)可能是RNA阶段更常用的紊乱分类元素。由于微阵列科学的进步,它已被广泛采用,以更好地解释疾病机制。rna序列的最新进展在增加转录可用性和识别低丰度数据集方面显示出希望。rna序列已经成功地用于研究肿瘤和宿主的关联,它也被用于检查神经疾病(ND)和神经认知疾病。此外,它被证明是一种研究复杂疾病中与基因表达相关的定量表型位点的高效方法[13]。

病理学结构变化的概述现在可以很容易地模拟使用使用各种方法获得的数据集的集合。单细胞处理的最新进展引入了基因改进的新维度。随着我们了解临床发展的复杂机制,水平的数量显著增加。此外,除了来自个体的疾病标本外,各种临床前构造(例如,细胞系和动物实验)可能被分子分类,以进一步解释疾病和检验假设[14]。

在药物方面,可以记录受生化或生物因素影响的模型系统的结构变化,以进一步解释紊乱和给药机制。遗传密码自适应显示,包括RNAi和聚类规则间隔短回文重复序列(CRISPR)-Cas9,可用于研究基因表达和遗传调控系统[15]。此外,大数据测序将很容易识别数百个有机分子在各种疾病类型中的免疫功能。由于电子医疗记录(EMRs)和实验测试的可访问性,现在可以监测和分析患者对药物作用的反应。除了生物和生化证据,来自研究的自由文本数据可能有助于药物开发[16]。

大数据源

没有任何一个机构、组织或合作能够提供能够捕捉动态疾病环境的所有复杂性的数据。此外,识别这些过程需要大量的数据,因此可以实现预测能力。为了理解疾病并找到新的治疗方法,需要对来自不同来源的多个级别的数据集进行跨学科检查。因此,重要的是,公众可以获得细节,以便方便地将任何和所有知识联系起来。最近已经开发并发表了一些可用于药物研究的有价值的研究数据集。这些例子包括COSMIC、GEO、Human Protein Atlas和PubChem[17]。公共数据库不仅被广泛用作一个比较点,而且经常被严格分析,以提出额外的问题,发现新的观察结果,并验证假设[18]。

目标发现

利用大数据来确定临床试验的目标,通常是从识别疾病样本之间的分子差异开始的。化学变异与遗传改变、遗传变异或其他特征相关,通常用于指导靶标发育。例如,英国生物银行是一个巨大的基因档案和研究平台,包含超过50万英国人的详细基因和健康记录。该数据库不断更新新信息,供全世界正在对日益严重和危及生命的疾病进行关键调查的持牌研究人员使用。它对医疗保健和治疗的发展以及许多改善公众健康的技术进步做出了重大贡献[19]。

我们在全基因组阶段对有机化合物进行分类的能力呈指数级发展,这导致了药物发现领域的概念变化。在过去的一段时间里,对蛋白质编码区域内遗传DNA退行性变化的研究,以及转录组分析,已经导致了创新方法的创造,以实现大信息,公正的客观发现。因此,我们可以计算全基因组高甲基化、染色质蛋白变化、剪接突变、转录因子结合位置和蛋白质积累。这一技术进步还使生物医学科学和药物生产的大型数据仓库不断扩大,允许无假设、无偏倚的目标探索[20.]。

许多癌症基因组研究已经建立了一个体细胞DNA结构修改数据库,包括每一类癌症中的单核苷酸变化、微小缺失、拷贝数修改和遗传易位,这些都是可能的癌症触发因素和新的临床目标。转录控制机制的全面集合,如重要转录调控因子的全基因组转录因子结合位点,以及组蛋白乙酰化等表观遗传学标记,最近已被建立起来,以帮助鉴定临床活性候选药物[21]。转录组存储库被广泛使用。这些档案,如上面提到的,与日益增加的极其特定的化学收藏相结合,大大缩短了从药物发现到治疗实施所需的时间。

杰出的挑战

从疾病标本中获得的评估可能是低标准的。根据最近的研究,相当大比例的肿瘤培养是不纯的,因为存在联合抵抗细胞和基质细胞。此外,样品之间存在广泛的技术和生物学变异性。此外,材料的一致性,特别是抗体,差异显著[22]。滥用抗体最终会导致研究失败。最后,虽然来自高通量研究的数据库作为检测表达的比较方法,甚至作为推断生物活性的方法是有价值的,但它也产生了错误的信号,最终导致对可能成功的靶标的误解[23]。

对于科学家来说,最困难的任务之一是将多个级别的数据整合到一个功能性和结构化的框架中,以便进一步理解、药物发现和患者治疗。整合EMR中报告的各种“组学”证据与医学生理学知识对于确定临床特异性致病分子修饰作为药物靶点至关重要。例如,基于1.1万人的综合临床和基因组证据,与拓扑相关的患者-患者网络可以将2型糖尿病分为三个新的亚组。结合复杂的基因组和表型内容、诊断数据和测试,以及环境和社会因素,如果充分利用和控制,最终将振兴临床实践[17]。

疾病生物标记物及其使用所引起的问题

经常发现的一个主要困难是我们对神经系统疾病缺乏正确的理解。奥斯汀表示,如果这些疾病及其机制得到更好的理解,就可以开发出更优的治疗方法。必须准确地记录整个开发阶段的临床观察,以便我们能够受益[24]。问题仍然是,开发疾病的生物标志物需要我们初步了解疾病的内在生物学机制,以便生产必要的治疗方法和药物。基于生物医学大数据的边缘生物标志物是一种新的区分疾病类型的方法。这是通过一个大型网络来完成的,允许不同的方法和策略在更多的个体样本中指定疾病[25]。

基因组大数据与生物标记

临床样本可以让我们比较基因组图谱,以确定生物标志物。一些例子包括发现EGFR突变以测试吉非替尼的敏感性。另一项包括检测12基因结肠癌序列,以预测接受亚叶酸钙和氟尿嘧啶治疗的患者的潜在复发。一项重要的研究是在结肠癌患者中进行375个基因的定量逆转录聚合酶链反应[26]。在这项研究中,患者在手术治疗后,或手术和氟尿嘧啶或亚叶酸钙治疗后观察了三年。有可能识别出48个与较高复发风险相关的基因,66个基因显示出从所给药物中获益。在66个基因中,有7个基因因其生物学基础和复发联系而被突出,并与5个参考基因进行了比较,从而创建了复发评分来计算复发风险。

疾病生物标志物未解决的挑战

生物标志物存在一个恶性循环,缺乏这些生物标志物可能导致临床试验失败,但临床试验允许初步发现这些必要的生物标志物。此外,临床试验的复杂性和差异可能会导致生物标志物被忽视。一种解决方案是在多项研究中对试验进行综合分析。然而,尽管共享数据对于检测干预的成功生物标志物或通过确定正确的靶标及其人口特征来理解药物失败的原因至关重要,但许多试验目前对公众是不可用的[27]。

结合的治疗

联合治疗策略最初在二十世纪中期以癌症治疗的形式引入,以提高疗效和减少抗癌治疗的不良反应。然而,随着越来越多地强调管理具有多因素病理生理学的疾病,如高血压、糖尿病和心脏病,越来越清楚的是,“一种药物-一个目标”策略可能过于简化,混合药物治疗应该在更广泛的背景下重新考虑,而不仅仅是癌症治疗。此外,随着当代基因组学和系统医学方法的出现,传统的“作用机制”已经让位于更广泛的基于“特征”的预测,为药物方法提供了重要的见解[28]。

联合治疗可能的作用途径包括兼容行为,其中两种或几种药物攻击同一蛋白质或通道内的不同受体,抗对抗活性行为,其中一种药物抑制对第一种药物的药理反应,并促进第二种药物刺激第一种药物功能的作用。在黑色素瘤治疗中识别几种抗体靶点是联合药物布局的一个有前途的新例证。在乳腺癌、高血压和阿尔茨海默病中发现了联合治疗的例子。对于黑素瘤,B-Raf酶抑制剂和细胞外信号调节抑制剂的分组已被提出[29]。

联合药物治疗的理论评估技术仍在建立中,但它们涉及基于分析模型的方法,例如专注于基因局部原理的基于网络的过程,或在已知疾病机制的病理生理学情况下基于生物模型的方法。即使对这些方法有了更深入的理解,仍然存在许多问题。总的来说,由于对所涉及的各种生物过程的生理学知识不足,以及与使用联合药物治疗相关的毒性风险增加,这一技术受到了阻碍[30.]。

前景

一个现有的药物开发理论假设是,充分研究感染分子修饰最终有助于开发新的治疗药物。为了识别疾病中的分子修饰并对药物治疗做出反应,必须以开放的方式查看分子图谱,我们现在称之为“大数据”。由于技术的快速发展,毫无疑问,我们开发的身份将很快成为有限的收藏品。在可预见的未来,将开发更广泛、更细致的数据库来对健康过程进行分类:从单细胞到组织,或从肿瘤细胞到微生物。巨大的BD数据集标志着一个千载难逢的机会,可以利用它们来加速现在的研究[31]。

考虑到药物发现数据库的规模和复杂性,没有一个人或团体可以掌握或利用一切;因此,整个药物发现过程必须重新设计,用数据和可靠的数据模拟驱动每个阶段。建议的措施包括选择合适的血液样本进行评估,选择合适的模板来检验假设,等等。此外,尽管高性能计算使我们能够快速地产生理论,但现有的实验室条件限制了我们的验证尝试[10]。

未来的潜在

信息技术(IT)部门越来越多的参与和参与正在改变该部门,通过专门与基于云的市场存储/分析中心相关联的便携式技术,提供数据收集、交换和研究平台,通常没有传统医疗组织的参与。例如,作为精准医疗计划(Precision Medicine Initiative)的一部分,美国国家卫生研究院(National Institution of Health)正试图建立一个100万或更多美国人的定量队列,通过智能手机或监测设备对药理学样本进行全面分析和高级易感性评估。将这些信息与为每个人提供的大量其他数据集结合起来,为实现精准医疗的目标带来了未来的希望[32-34]。

结论

在过去的几十年里,大数据药物发现在流行程度和速度上都有所增长。研究从概念验证试验开始,然后扩展到包括涵盖各个学科的创新技术的实施,收集用于一般应用和研究的实验结果,现在扩展到包括更复杂的生物学方面和治疗设置,以提高现实世界药物生产问题的有效性。大数据药物发现可以更容易地确定流行疾病、罕见新发疾病和影响生物学上无关紧要的人口统计数据的健康问题的不寻常亚群的治疗方案。

参考文献

全球科技峰会