原文作者与译者按 

在生物学及医学领域,基于广泛分析衍生出的形形色色新的研究方法每天都能为我们提供大量的研究数据。

在复杂疾病的病因研究中,应用基因组检测的方法,研究者们获得了数量惊人的知识。目前不仅可以研究基因组,还可以研究蛋白质组、外显子组、转录组、表观基因组、代谢组,甚至新提出的微生物组、连接组和暴露组。本文的标题借用阿根廷布宜诺斯艾利斯儿童医院Victor Schlichter的一句名言,“这不公平!健康只有一种,疾病却有千万种。”现如今,确实存在许许多多的组学。对此我们认为,尽管能够拥有如此多的组学对我们来说十分幸运,但是不得不强调未来对各种组学所得出的成果进行整合是非常必要的。

导言

在生物学及医学领域,基于广泛分析衍生出的形形色色的新的研究方法每天都能为我们提供大量的数据。

在复杂疾病的病因研究中,应用基因组检测的方法,研究者们获得了数量惊人的知识。癌症是一种很复杂的疾病,近年来我们认为癌症的病因是与基因有关的,而基因组检测仍然是各型癌症的主要研究方法。尽管如此,其他细胞或生化层面的方法也同等重要。我们目前不仅可以研究基因组,还可以研究蛋白质组、外显子组、转录组、表观基因组、代谢组,甚至新提出的微生物组、连接组和暴露组。我们如今所采用的高通量技术改变了癌症的研究方法,它允许在某一特定问题上进行不同层次的多方面论证。

回顾

分子水平的癌症研究最常用的组学是基因组学,即为对有机体基因组结构进行整体研究分析。基因组定义为一个有机体的全部遗传物质,也就是它全部的DNA核苷酸序列。人类基因组由32亿个核苷酸组成,但只包含2.35万个蛋白质编码基因。与基因组学密切相关的是外显子组学和转录组学。外显子组是遗传密码中编码蛋白质的部分,是由外显子组成的那一部分基因组。人类外显子组包含18万个外显子,长度大约30 Mb,约占基因组总量的1-2%,全基因组测序意味着要解码32亿个核苷酸,相比之下外显子测序速度更快、更方便也更容易理解。大约99%的人类基因不编码蛋白质,但是,这些序列在执行不同的已知的和未知的功能方面也是很重要的。外显子组学和转录组学的区别是:转录组包含所有由转录形成的RNA分子,而基因组和外显子组在DNA序列水平的性质是相对固定的。转录组的非固定性体现在不同的转录率上,例如在一个特定的器官、组织、细胞内,特定的时间内合成RNA分子的速率是不同的。此外,对于某一种特定的RNA分子,转录组学可以提示我们特定时间特定部位它的数量多寡。因此,转录组学体现了基因组由基因组编码的信息的表达。表达调控水平不仅受不同内在信号和刺激的影响,也受细胞对外在环境反应和适应的影响。一般情况下我们用cDNA基因芯片技术来研究分析转录组学,但在过去几年里,新一代的测序平台(被称为RNA测序技术)开始应用于转录组学的研究中。

在癌症研究中使用高通量组学技术所得到的数据和信息在科学论文中常被称为“癌症基因全景图”。这个名词中包含大量特定的遗传事件,旨在解释整个复杂的肿瘤系统。既然获得了基因全景图,我们就应该为它们建立图谱。因此,通过美国国家癌症研究所和美国国家人类基因组研究所的合作,癌症基因组图谱(TCGA)项目在2006年启动。此项目旨在汇集20多种类型癌症已知的变化。为了使研究人员能够搜索、分析并验证重要的发现,它的数据可通过癌症基因组图谱(TCGA)数据库免费获得。另一个重要的项目也值得一提,Wellcome Trust Sanger研究所的癌症基因组项目。此项目利用人类基因组测序和高通量的基因突变检测技术来识别人类肿瘤和肿瘤来源的细胞系中体细胞DNA序列的突变。通过这些资源,癌基因普查和体细胞突变目录项目能够系统地研究人类癌症中的基因突变,从而确定影响癌症进展的基因。

组学数据整合的结果不仅显示了两个特异的基因谱亚组,而且也显示了不同肿瘤类型间的相似性和变异性。我们可以据此区分驱动突变和随从突变,并解释某些类型肿瘤的异质性。驱动突变定义为能赋予肿瘤细胞选择性生长优势的突变。如何从随从突变中鉴别驱动突变是癌症基因组学研究的主要挑战。例如,TCGA的乳腺癌项目通过对510种肿瘤外显子基因测序确定了30626个体细胞突变,包括28319个点突变和2302个插入/缺失突变,这么多的突变很难区分哪个是关键的驱动突变以及哪条信号转导途径发挥重要作用。所以我们将在某特定肿瘤中反复出现的突变被视为驱动突变。正如TP53、KRAS一样,当某基因突变的数量和受影响的基因频率很高时,驱动突变基因就很容易确定。然而在确定驱动基因时突变频率并不完全可靠,例如有部分基因存在多个突变,察突变的方式而不是通过突变的频率。如果将一个基因作为肿瘤的驱动基因那么但是相对而言其突变数量较少。在这种情况下,通过计算突变频率来确定驱动基因的方法并不可靠。Vogel-stein 等人提出确定驱动基因最好的方法是通过观此基因要具备癌基因或肿瘤抑制基因的特征。从许多功能性研究中观察到的模式显示,癌基因不断地在相同的氨基酸位置发生突变,然而抑癌基因的特点是蛋白截断性突变。因此,癌基因突变的特点是>20 %的突变发生在固定的位置并且是错义突变,抑癌基因中>20 %的突变为无义突变。

随从突变包括各种在致癌事件发生之前就在初始细胞中积累的中性突变,此突变随着克隆扩增和肿瘤进展不断发生,但是不直接或者间接参与细胞的选择性增长优势。它们可以在癌前阶段发生,但是对癌前阶段的进展无影响。然而,它们在肿瘤的转移、患者对治疗药物的反应以及疾病的临床治疗过程中很重要。

有许多计算模型和计算算法可用于预测被检测突变带来的功能学改变。也有许多计算模型和计算方法用于将不同类型的癌症以及不同平台获取的资料进行整合。由于对每一种肿瘤类型很难确定一个背景突变率,如何确定统计学假设一直存在争议。为了能够阐明这些复杂数据的真正含义,我们确实需要发展与完善更多可以用于解释基因组分子信息的计算方法。

总结我们从基因组数据中已经得到的信息,我们知道通常情况下在实性肿瘤中平均有33至66个基因为体细胞突变,能够影响蛋白质产物。然而,有的肿瘤类型显示了更多的突变,而有的类型类型有更少的突变基因。COSMIC的最新版本描述了在超过一百万个肿瘤样本中的2710449个编码点突变,包括了大部分人类基因(28977)。约95%的突变是单碱基替换,其中超过90%是错义突变,而剩余突变是一个或几个碱基的缺失或插入。据估计仅有138个突变是驱动基因,其中74个为抑癌基因,64个为癌基因。癌基因组有高度的复杂性,即使在相同的组织病理学中也显示出巨大的遗传异质性。驱动突变和随从突变协同作用使每种肿瘤各具特点。那么,我们如何理解这巨大的差异性?答案就是影响不同肿瘤的信号转导途径是相似的。因此,当受到影响的基因被放置在信号转导途径中时,癌症的复杂性明显降低。肿瘤具有的独特的或者共同的传导通路可以被描述出来。所有已知的驱动基因通过12个核心信号转导途径转导:WNT, NOTCH, Hedgehog, TGF-beta, MAPK, STAT, PI3K, RAS, 染色质修饰,转录调控,DNA损伤控制和细胞周期凋亡。

发现肿瘤的共通转导通路为设计肿瘤治疗靶点和发现治疗方法提供了条件。使驱动基因失活似乎不是至关重要的,通过干扰受影响的转导途径足以治疗癌症。所以除了通过抑制由突变基因产生的特定蛋白质的生物学行为,我们还可以根据密切关联着的转导途径来设计治疗方案。在基因组信息被应用于临床之前,对于癌基因的深度功能性验证仍然是必要的。不是所有的体细胞突变在功能上都是等效的,对这一点的理解很重要。将基因组学应用于临床将会很快完善目前的癌症诊断和分类,并提供更准确的生物学标志物和个体化的治疗方案。基于突变基因和受影响的信号转导途径的研究,每种肿瘤类型都会有新的检测方法,并且随着这些方法不断发展,诊断学得以不断提高。

在过去的十年,蛋白质组学给我们带来了大量研究数据,蛋白质组学可以定义为大规模对蛋白质的研究,包括对蛋白质的功能和结构的研究。蛋白质组学研究是一个系统性学科。蛋白质是细胞的功能的基础,在特定的细胞或组织中,机体处于健康或者疾病状态,细胞生长的不同阶段,以及细胞与周围环境的相互作用等各种条件的影响下,对蛋白质组学的研究是一项有难度但回报性极高的工作。人类蛋白质组计划(HPP)的目的是绘制人类全部的蛋白质组图谱,此研究的方法是质谱分析和生物信息学。人类蛋白质组包含23,500个蛋白质编码基因,但是我们不得不增加不同的蛋白亚型,大约有百万种不同的蛋白质异构体,意味着有百万种不同的蛋白质。

特殊肿瘤病理学的蛋白质组图谱特征将为癌症研究打开新的视野。癌症基因组的改变反映在功能性水平上,意味着癌细胞的蛋白质组学已经发生了改变。可以从两个方面比较肿瘤蛋白质组学:观测到变化的绝对定量和测量相对变化的相对方法。一个特定的样品中蛋白质的绝对含量很难定义和获得,因此,大多数蛋白质组学试验选择测量相对变化。

另一个不可忽视组学的是表观基因组学,该领域计数所有表观遗传变化,此变化水平在基因组核苷酸序列以上,包括的分子机制有:DNA的修饰和染色质结构的调制。这些机制可以在分化细胞中改变基因的表达。DNA特定位置半胱氨酸残基的甲基化是与表观遗传变化相关的首要的分子机制。甲基化模式的维持是重要的调节元件且与基因组印记密切相关;在基因印记中,特定基因的表达依赖于此基因是母系还是父系遗传。除了甲基化,表观遗传机制还包括组蛋白的翻译后修饰,染色质重塑和非编码的RNA干扰途径。表观基因组研究旨在通过破译和理解这些协同的表观遗传修饰,来推断转录调控的方式并确定精确的基因表达程序。

人类肿瘤中存在大量的表观遗传改变,它们影响着DNA和染色质蛋白。表观遗传可能参与癌症的发生,因为有许多基因在没有突变的情况下即发生了异常表达。随着肿瘤的进展,这些基因的甲基化和染色质修饰发生了改变。此外有报道证实,大量驱动基因编码的蛋白质能够调节染色质的重塑。

30多年前癌症的表观遗传改变首次被发现,研究者报道了癌症细胞和正常细胞相比其总体的DNA甲基化程度更低。癌症总体低甲基化是指在癌组织中发现5-甲基胞嘧啶总含量降低。低甲基化通常以重复序列为特点,不仅存在于癌症中,而且可以在暴露于慢性炎症的非癌组织中观察到。然而,炎症是如何引起表观遗传改变的至今仍不清楚。后来有研究者发现了启动子的超甲基化,它导致了抑癌基因的沉默。而最近的基因组研究发现了癌症中表观遗传调控因子的突变。例如,在脑胶质瘤中IDH1和IDH2调节器频繁突变,导致基因的功能丧失——组蛋白修饰的基因组改变。其他表观遗传修饰的突变也常导致组蛋白异常的甲基化。

表观遗传基因的异常表达是始动反应还是被动反应?是肿瘤导致特定的表观遗传变化,还是表观遗传学变化驱使了肿瘤的发生?这些都是需要回答的问题。

遗传和表观遗传改变的差异表现为:遗传序列是固定的,而甲基化是可塑的,依赖于微环境、患者的年龄、营养状态等。异常的表观遗传事件经常出现在早期腺瘤患者中。因此,表观遗传流行病学可以通过识别危险因素、确立早期疾病标志物癌症和等手段在癌症预防中发挥重要作用。表观遗传学改变的重要特征之一是此改变可以逆转。这种特点为表观遗传药物的发展提供有力的条件,此药物用于修复正常表观基因组。表观遗传药物可以是DNA甲基化剂、组蛋白甲基化抑制剂与去甲基化酶、还有识别组蛋白修饰的蛋白质。

除了上述组学之外,许多新生的组学也令人关注——代谢组学:研究生物体的所有代谢产物;微生物组学:研究人体肠道微生物以及它们是如何产生特定症状;连接组学:研究连接体,其终极目标是绘制人类大脑的所有神经连接;暴露组学:研究一个人一生中暴露的总和。

代谢组定义为一个生物体所有代谢物的总称,代谢物是分子量小于2000Da的分子的,参与代谢过程的中间产物或最终产物。在此背景下,代谢组学是对于小分子代谢中间产物的复杂性与总体性的研究。由于代谢组受到环境、微生物和其他不同的生理刺激的影响,代谢组与基因组和蛋白质组相比更具不稳定性,且易受快速变化的环境的影响。因此,对比基因组和蛋白质组学,代谢组学更难以确立。代谢组学的主要分析技术是核磁共振波谱分析(NMR)和质谱分析(MS)技术,通常从体液如血浆和尿液中测量。2007年代谢组学创立,同时也建立了相应的人类代谢组数据库。人类代谢组由大量的内源性和外源性化合物的组成。内源性化合物由我们的基因组编码的酶催化合成,外源的化合物代表我们身体所消耗的化学物质,这些化合物都会影响代谢通量和代谢途径。

论及代谢组学我们必须考虑它与代谢控制理论的关系,代谢控制理论也被称为流理论,大约于40年前由Kacser and Burns建立。此理论描述了代谢通量和浓度是如何取决于酶的量和基因剂量的。此理论以对稳态代谢物浓度变化的测量和参数调制引起的通量为基础。作者提出了一个操作性定义,即流量控制系数,定义为由通量引起的的酶活性的相对增加量除以通量相对增加量。这个理论对我们理解新陈代谢的过程有很大的帮助。实际上,酶的活性和通量之间的双曲型关系适用于大多数的代谢网,包括复杂的代谢网。通过代谢网络的通量可以被认为是模型中的数量性状,其值取决于代谢网络中编码和调节酶的活性的全部的基因的数量。

浓度是酶活性的关键参数,而酶基因表达的变化在细胞生理学起着核心作用。它可以用来描述在酶浓度和效应极低的情况下产生的代谢浓度和通量的反应和变化。

所有的通路都是相互关联的,一些联系紧密一些联系少。举例来说,一个细胞内所有的物质都是相联系的,但是物质之间联系的紧密程度会随着细胞内环境的变化而改变。这意味着相互交织的通路可能出现或消失,具体视情况而定。例如,某些基因会以不同方式运行,并影响其他基因表达。因此,任何生化路径的酶都可能成为限速酶,从而控制代谢。

代谢理论也解释了为什么许多强效应的突变反而是隐性的。Kascer和Burns在数学水平上和经验基础上做了假设,得出:通过一个长期的代谢途径的通量和在通路的任何一阶段的酶活性之间的关系是一条边际收益递减曲线。Kascer和Burns解释:如果我们将机体视为由大量的催化剂组成有机体,这些催化剂以分裂或合成的方式产生许多代谢产物。强效应突变表现为隐性现象可以解释为通过代谢途径的通量和在通路中任何一个步骤的酶活性的关系边际收益递减的结果。通量理论提出的几年后,这种方法很少被采纳,但后来它被许多研究小组进行了扩展并被应用到各种系统中。或许它也应该在组学环境中被重新认识。

与代谢组学密切联系和影响的是是微生物组学的新领域。微生物组代表所有在我们体内或者体表共生的微生物的基因组。人类肠道菌群的数量十分庞大。它由大约1016个微生物细胞组成,是人体细胞数目的十几倍。此外,微生物的基因数可能会超过人类基因总数2个数量级。所以,我们的共生微生物对我们的生物学特征有很大的影响。例如微生物积极参与了宿主代谢和免疫系统发育的调控;人类的肠道菌群甚至可以作为一种能够进行许多生化过程的新器官。不同的微生物寄居住在人体不同的部位,了解特殊部位微生物群落的布局对于认识疾病与菌群的改变的关系很重要。微生物组学研究的典型方法是在所有被研究的微生物中选择标记基因,其序列是可变的,能够区分分类。选择的标记基因是小亚基核糖体RNA(rRNA)基因。由于花费低,辅以高通量 DNA测序和16S rRNA测序为基础,微生物组学得以分析和收集数以万计的微生物DNA序列。

另一个和癌症研究无直接联系但是需要提及的组学是联系组学。因为已明确它对中枢神经系统肿瘤的形成和结局有预见性作用。联系组学发现了大脑在不同的空间与时间范围内其结构性和功能性的大脑联系的变化。大脑是如何作为一个整体来发挥功能的仍然是一个谜,联系组学也一直在致力于阐明此问题。从数十亿的神经元和突触网,一直到结构网络的皮层和皮层下区域,大脑中所有的信息都是通过交换信号和互相影响来互相联系的。对这种动态网络中的相互作用进行解释能够提供重要的关于神经通路的资料,这些资料是研究脑功能、行为和个体差异的基础。

人类连接体项目旨在利用影像学方法:结构MRI,静息状态的功能磁共振成像(rfMRI),弥散成像(DMRI)和功能磁共振成像(fMRI),来描绘健康人脑的所有的神经连接。连接组学也面临着挑战,例如这个整合图谱无法捕捉调节过程,同时也存在有个体差异和时间变异性。

另一个同样有趣的新组学是环境暴露组学,此组学旨在包罗人一生中从受精开始所有的环境暴露。环境暴露开始是作为流行病学研究的一部分被引入的,因为在流行病学研究中需要评估环境暴露。作为对基因组的密切补充,环境暴露是影响人体健康的非基因因素的汇编。

众多的环境暴露因外部环境的不同而不同,包括辐射、化学污染物、空气污染和水污染、生活方式、饮食、职业、医疗干预措施、噪声振动和气候。内源性过程,如炎症、氧化应激、肠道菌群,疾病和感染同样重要。如果加上社会经济因素和精神压力因素,环境暴露组学对人类健康的影响就更大了。环境暴露组学的研究由内、外来源的大量生物标志物同步测量来执行。如何制定测量标准仍然是一个挑战。然而,暴露组学研究带来的数据对更好的理解人类疾病的病因和预防有益。现代病因学的观点认为,据估计,大多数慢性疾病都归因于环境因素,也就是说都是由环境暴露引起的。首次尝试衡量生命早期环境暴露的是HELIX项目的建立。该项目的目的是测量和整合怀孕期和婴儿期广泛的化学和物理暴露。

然而,由于组学数据具有很大的变异性,所以结果很容易被曲解。甚至一直被视为静态的基因组学也已被证明是可塑的,易于受(比如环境)动态变化的影响。不同的样本条件、实验准备、仪器都能够影响组学结果的多样性。

这篇文章的标题引自阿根廷布宜诺斯艾利斯儿童医院的Victor Schlichter的一句名言,“这不公平!健康只有一种,疾病却有千万种。”现如今,确实存在许许多多的组学。对此我们认为,尽管能够拥有如此多的组学对我们来说十分幸运,但是不得不强调未来对各种组学所得出的成果进行整合是非常必要的。在分子生物学和分子医学领域中,研究者会倾向于区分他在各个领域学到的知识。在我们看来这并不是蓄意行为,而是由于获得数据和信息的方法非常复杂,也是由于此领域还很年轻。许多分析、解释组学数据或研究组学在临床、诊断方面的应用的工作在科学界仍然处于领先地位。特别是对于癌症的发生发展及其异质性的研究具有巨大前景。

结论

不同复杂的、详尽的领域使我们在单一生物学领域甚至其特定的领域成为专家。随着科学发展了几个世纪,很显然,一个人不能真正的理解截然不同的领域,我们推断在科学领域不再有多才多艺的人。但是鉴于新的多样的研究方法和高通量技术的出现,我们将不得不追溯到未来,再次成为了解生物学、生物化学、生物信息学和生物物理学的文艺复兴人。但是这一次可能更加困难。我们有试验结果数据,但是现在我们必须理解它的意义,这对我们来说是更大的挑战。


文章来源:Pećina-Šlaus N ,Pećina M. Cancer Cell International,2015; 15:64-70