Desheng Liang,Ying Peng,Weigang Lv,Linbei Deng,Yanghui Zhang,Haoxian Li,Pu Yang,Jianguang Zhang,† Zhuo Song,† Genming Xu,† David S. Cram,† and Lingqian Wu*

医学遗传学国家重点实验室,*中南大学,湖南长沙;北京贝瑞和康生物技术有限公司,北京,中国

录用日期2014516

通讯作者:邬玲仟,博士,中南大学医学遗传学国家重点实验室

 

摘要:检测染色体拷贝数变异(copy number variationCNV)在临床症状诊断不明和识别胎儿染色体疾病方面具有重要作用。目前,结合微阵列技术的染色体核型分析是临床检测 CNV的金标准。为了提高 CNV 检测的可行性并降低检测费用,我们推测第二代测序技术灵敏度和特异性与微阵列技术相当可用于 CNV 检测。本研究同时采用中等密度单核苷酸多态性微阵列技术(single nucleotide polymorphism arraySNP array)和低覆盖度大规模平行测序技术(CNV sequencing, CNV-seq)对患者样本进行分析,配合 mate-pair 测序对 CNV-seq 检测到的 CNV 断裂点进行确认。CNV-seq 的最佳 DNA 检测样本量为 50 ng,而样本量低至 10 ng 也可实现准确的 CNV 检测。对微小 CNV 样本进行验证研究,结果显示 CNV-seq 技术具有良好的特异性及可重复性,其检测分辨率约为 0.1Mb。对 72 个已由 SNP Array 检测过的样本进行 CNV-seq 盲测,发现 CNV-seq  SNP Array 具有较高的检测一致性。由此认为,CNV-seq 可作为微阵列技术的替代方法用于染色体疾病检测(J Mol Diagn 2014, 16: 519e526; http://dx.doi.org/10.1016/j.jmoldx.2014.05.002)

人类已知的染色体疾病有200多种1。大多数染色体疾病由染色体数目异常引起,以唐氏综合征最为普遍。另有部分染色体疾病因缺失或重复一段染色体片段(拷贝数变异,copy number variationsCNVs)而引起,统称为染色体微缺失/微重复综合征。 

 

染色体疾病临床表型多样,表现为多发性先天畸形、肢体残疾、发育迟缓、智力障碍、癫痫症、自闭症和学习障碍等1-3。近期对人类配子和植入前胚胎的研究揭示4-6,患者固有的染色体不稳定性是其染色体发生异常的主要原因CNV的形成众所周的非同源末端连接,以及新近提出的DNA 复制扰动和不连续 DNA 复制有关。多种机制共同作用原发性CNV形成速度远远超过其他类型的基因变异7同时一些发生率低、但影响显著的染色体变异持续通过家族遗传得以传播1。通常,大多数原发性继承性的染色体异常发生时,胎儿仍可发育至足月,导致约0.3%的染色体疾病患儿出生8

过去 30 年,产前诊断对早、中孕期染色体异常检测起关键作用,选择性终止妊娠减少新生儿中染色体疾病的发病率1产前诊断需针对胎儿进行一系列分析,包括母体清学筛查和超声检。对于疑似染色体疾病的胎儿,后续诊断通绒毛膜取样或羊膜穿刺术进行核型分析。核型分析检测超过20的细胞分裂中期细胞,分辨率约为5Mb,是目前检测胎儿染色体非整倍体、多倍体、平衡和非平衡性结构重排、较大片段的微缺失/微重复以及嵌合体的金标准9-11。其他方法如荧光原位杂交fluorescence in situ hybridizationFISH12、荧光定量聚合酶链式反应(polymerase chain reactionPCR13和多重连接探针扩增技术14multiplex ligation-dependent probe amplificationMLPA也被用于胎儿染色体非整倍体的快速检测。最近,高分辨率寡核苷酸和单核苷酸多态性微阵列技术(single nucleotide polymorphism arraySNP array也被用于产前诊断并为其带来巨大变革15。与其他技术相比,SNP array 能在更广范围内进行染色体异常的检测可发现具有临床意义的、小于 5 Mb 的染色体微缺失/微重复16

 

在临床应用中,微阵列芯片通常需定制,采用高密度寡核苷酸或 SNP 探针均匀覆盖每条染色体以及致病基因的外显子区域3,16,17。结合双寡核苷酸的 SNP array 也被用于染色体分析,其分辨率高,可额外检测出寡核苷酸微阵列未能检测到的、有临床意义的染色体异常18,19。此外,根据公共数据库中详尽的染色体异常及相关临床表型信息,使用定制微阵列芯片检测 CNVs 易于实现准确的临床检测20对更加复杂的综合征(如自闭症)进行深入的遗传基础研究21。然而,对某些罕见的、数据库中未涵盖的 CNVs,仍无法实现可靠的诊断22。相比核型分析,基因微阵列技术能够额外检测到 5% ~ 15% 的染色体异常16,23,但在检测多倍体和平衡易位方面,基因微阵列技术仍存在难度。一项关低危和高危妊娠的研究显示,微阵列可作为检测胎儿染色体异常的主要技术加以运用24

 

在西方国家,联合应用超声、核型分析以及微阵列技术已对识别妊娠期胎儿染色体异常诠释习惯性流产以及诊断儿童和成人未知生理和心理问题产生重大影响,为提高其生活质量提供更好的治疗方案16,25,26。但在发展中国家和一些发达国家,微阵列技术因技术难度高、缺少专业知识和高成本等尚未得到广泛运用故而新生儿染色体疾病发病率仍很高27-29。目前,临床上亟需微阵列技术的替代方法,以便全面准确、经济实惠地检测大多数染色体疾病。我们推测基于第二代测序技术的CNV-seq满足这一需求。

 

我们之前的研究结果显示采用低覆盖度鸟枪测序法分析500万条的测序序列,以每条染色体上连续的20kb基因组测序单元(bin),可检测5%X染色体嵌合体30我们推测这一方法同样适用于22染色体以及 XY两条性染色体高分辨率 CNV 检测。本研究采用CNV-seq检测受检样本其染色体异常均由SNP array确认,结果表明,CNV-seq  SNP array 具有高度的检测一致性,且CNV-seq重复性好灵敏度高,分辨率约 0.1 Mb

 

 

材料与方法

受检样本

核型分析和SNP array在中南大学医学遗传学国家重点实验室和湖南家辉遗传专科医院进行。入选样本72例,62来自于发育迟缓智力障碍或先天畸形患者10例来自于流产组织详细情况见补充材料(表S1)。另有3染色体样本和4微小CNVs样本(小于 0.25 Mb)用于评估 CNV-seq的检测灵敏度和特异性。使用Qiagen公司生产的 DNeasy Blood & Tissue Kit试剂盒,提取患者血液和流产组织中DNA琼脂糖凝胶电泳,使用Thermo Fisher Scientific 公司生产的 NanoDrop 分光光度计,评估 DNA 样品的质量和浓度。

 

SNP array

使 Illumina 公司生产的 HumanCytoSNP-12 BeadChip芯片进行染色体 CNV 分析,SNP 探针密度为 298,563,基因组平均间距为 19 kb。使用 Illumina 公司的 GenomeStudio 软件(版本 2011.1)计算 log R 值以及 A  B 等位基因频率值。使用Illumina 公司的 cnvPartiion 软件插件(版本 v3.1.6)进行详细的 CNV 分析。CNV重复(AAAAABABB  BBB 等位基因组合)和缺失(A  B 等位基因)定义为50  SNP 区域中置信度得分 >100

 

CNV-seq

 50 ng 基因组 DNA 进行片段化处理,获得平均大小为 300 bp DNA片段,参照文献方构建测序文库31,32使用 Illumina 公司的 HiSeq 2000平台进行测序,36bp单端测序,测序深度0.1倍,产生800条的测序序列。使用 Burrows-Wheeler 算法将所有测序序列与hg19基因组进行比对分析33。根据文献记载的数据处理和分析算法30,将最少 20 个测试样本进行内部比较,互相作为参考。为了提高检测灵敏度,60Kb为基本测序单元,对大约500条测序序列进行分析。以标准化测序读取密度的 log2 值为y轴,以相对连续的60kb测序单元为轴,绘制CNV-seq检测结果图。然后,依据每条染色体的长度计算 log2 平均值。染色体拷贝数重复(3个拷贝)的log2 理论log2 [1.5] = 0.58染色体拷贝数缺失(1个拷贝)的log2 理论log2 [0.5] = -1.0。将CNV-seq检测拷贝数重复的cut-off设为 >2.8log2 [1.4] = 0.49),拷贝数缺失的cut-off值设 <1.2log2 [0.6] = 0.74)。

 

Mate-pair 测序

使用 Illumina 公司的 Nextera Mate-Pair Sample Preparation Kit 进行 mate-pair 测序。先将5µg基因组 DNA 进行片段化处理,然后将DNA片段溶于1%的琼脂糖凝胶,再用 Qiagen 公司的 QIAquick Gel Extraction Kit  5 kb 大小的 DNA 组分进行纯化。使用 HiSeq 2000对文库进行测序,产生成对的正反向约为 100 bp 测序序列,然后使 Burrows-Wheeler 算法将这些测序序列唯一比对 hg19 参照基因组中33。共10-2,500 万个测序序列用来识别至少一个成对的染色体断裂点。

 

结果与分析

CNV-seq 低样本量 检测效果

本研究小组在以往的研究中证实,用于构建文库的初始DNA量为100ng时,CNV-seq可取得与核型分析一致的检测结果30。考虑到临床样本DNA量的可变性,本研究对正常样本46,XX)和Wolf-Hirschhorn syndrome样本(46,XX,4p16.1-pter8.92Mb缺失)进行低样本量CNV-seq检测,以验证CNV-seq的临床适用性。分别重复46,XX46,XX,4p16.1-pter样本量为10ng50ngCNV-seq检测146,XX46,XX,4p16.1-pter样本量分别为10ng50ng4号染色体CNV-seq结果图;补充材料图S1S246,XX,4p16.1-pter样本量为50ng所有染色体的 CNV-seq结果图)。样本量为50ng时,CNV-seq46,XX 样本46,XX,4p16.1-pter样本的正常染色体检测均未发现显著的CNV46,XX,4p16.1-pter样本也在4p16.1-pter 区段观察到预期的拷贝数缺失。与之相反,样本量为10ng时,46,XX正常样本46,XX,4p16.1-pter异常样本CNV-seq结果图表现出轻微的不稳定性,部分染色体表现出轻微的非特异性 CNV 波动,染色体末端区域表现显著。而在46,XX,4p16.1-pter异常样本中,还观察到比 4p16.1-pter 区域稍小的拷贝数缺失。基于以上分析,50ng为最佳的 CNV-seq检测样本量可产生 800 条测序序列。

 

 1  CNV-seq 对低样本量的检测效果。图为 46,XX46,XX,4p16.1-pter样本量分别为10ng50ng4号染色体CNV-seq结果图CNV-seq 结果以标准化测序读取密度的 log2 ,以相对连续的60 kb 测序单元轴。上虚线 [log2 (3/2)] 下虚线 [log2 (1/2)] 分别表示100%染色体增加(重复)100%染色体减少缺失)。CNV区域、重复序列区域和着丝粒区域分别用蓝色线条、红色方框和黑色方框表示。箭头对应4p16.1-pter区域8.92 Mb的缺失,50 ng样本量检测效果更佳。

 

 

CNV-seq 的特异性和可重复性

在对样本的检测中,CNV-seq偶尔检出一些大小为几百Kb的微缺失/微重复。为了验证这些微小 CNVs 是否真存在以及CNV-seq 对真正CNVs检测的特异性,我们使用 mate-pair 测序来确认和精确定位两个已测样本缺失和断裂位点。其中一个样本Xp22.2区段缺失0.22 Mb,可能导致 PLP1 基因缺失和 X 连锁佩梅病(Pelizaeus-Merzbacher disease);另一个样本6q26区段纯合性缺失0.08Mb,可能与帕金森病(Parkinson diseasePARK2基因缺失有关。mate-pair 测序至少检测出两个样本跨越断裂点的5kb DNA片段(23)。基于上述 mate-pair 测序结果,设计引物扩增包含两个断裂点的小片段 DNA,运用Sanger测序法将疑似基因断裂点精确定位到单核苷酸水平,结果证实,最初由 CNV-seq 检测到的两个缺失真正存在。

 

2  Mate-pair 测序确认由 CNV-seq 识别出的两个缺失的断裂点(Xp22.2区段缺失0.22 Mb6q26区段缺失0.08 Mb)。根据横跨缺失区域的 5 kb 片段 mate-pair 测序结果,以 hg19 作为参考基因组定义缺失区域的近似坐标,并在断裂点的任一侧设计 PCR 引物。Sanger 测序法确定缺失片段大小,并将断裂点定位到单核苷酸(箭头)水平。由此确认,连锁佩梅病和帕金森病疑似患者中的 Xp22.2 区段 6q26区段 缺失分别由 PLP1  PARK2 基因序列的全部或部分缺失引起。

 

为了确定能否重复检测上述两微小 CNVs我们使用3 50 ng 基因组DNA重复检测。结果发现,三次mate-pair 测序均可发现Xp22.2区段0.22Mb的缺失和6q26区段0.08Mb的缺失,CNV缺失的拷贝数也符合预期3后续分析另外个基因组 DNA 样本,第样本显示22q11.2 区段缺失0.24 Mb查询OMIM数据库显示,缺失导致3个非病基因(IGLL3PLRP5L  CRYBB2P1合子表达样本显示9q33.1区段缺失0.22 Mb查询OMIM数据库显示,缺失导致致病基因TRIM32半合子表达。在两个DNA样本预期位置重复检测到单个CNV(数据未示出)。由此可知应用CNV-seq检测微小 CNVs 具有良好的特异性和重复性。

 

3  CNV-seq 微小 CNV 重复性试验。三个重复样本的 CNV 结果图均显示Xp22.2区段0.22Mb的缺失和6q26区段0.08Mb的缺失 CNV-seq 结果以标准化测序读取密度的 log2 ,以相对连续的60 kb 测序单元轴。上虚线 [log2 (3/2)] 下虚线 [log2 (1/2)] 分别表示100%染色体增加(复制)100%染色体减少缺失)。CNV区域、重复序列区域和着丝粒区域分别用蓝色线条、红色方框和黑色方框表示。三个重复样本中的两个缺失(箭头)均被 CNV-seq 重复检测到,CNV倍性符合预期

 

 

验证CNV-seq 检测染色体疾病的临床适用性

为了评估 CNV-seq 在染色体疾病综合诊断中的适用性,我们72经由SNP array确认过的样本进行CNV-seq分析(个别样本的保存期已超过 5 年)。检测过程为双盲检测CNV-seq 结果SNP array 结果进行比较(数据概况见表1完整数据补充表S1)。文章分析了11样本的CNV-seqSNP array比较结果,其中4例见图4 另外7例见补充图 S3CNV-seq 72 例样本的检测结果与SNP array完全一致( 1  补充表 S1,其中致病CNVs 4360%)。此外,CNV-seq 检测到5例未被SNP array 检出小于 1 Mb 的次级 CNVs0.20 ~ 0.6 Mb),临床意义未知。在所有诊断一致的样本中,染色体微缺失/微重复的性质大小以及染色体异常的位置, SNP array  CNV-seq 结果几乎相同,与核型分析结果基本一致。上述结果表明,CNV-seq 染色体疾病的检测方法,检测效果与 SNP array相当

 

 

 4  比较 SNP array  CNV-seq 对四种染色体疾病的检测结果。两种方法测定的染色体位置和 CNVs 大小基本相同。各个 CNV 的详细信息见补充表 S1

 

 

 

CNV-seq 检测环染色体缺失

 

为了验 CNV-seq 是否能够检测其他类型染色体异常,CNV-seq重新分析一组经由核型分析证实具有环染色体结构1422  18 号染色体, 5的样本CNV-seq 分析发现14号染色体端缺失3.2 Mb22号染色体端缺失7Mb18号染色体p端缺失2.5 Mb q端缺失15.7 Mb5,上述缺失是环染色体形成过程中随机末端缺失导致的结果。对于 18 号环染色体,CNV-seq 清楚地检测到两个符合预期的 p  q 缺失,缺失的大小也被精确识别,映射染色体形成过程不过CNV-seq 不能映射 14p  22p 缺失。

 

 5  CNV-seq 1422 18 号环染色体的检测结果。图中显示 CNV-seq 和匹配的核型分析结果CNV-seq 结果以标准化测序读取密度的 log2 ,以相对连续的60 kb 测序单元轴。上虚线 [log2 (3/2)] 下虚线 [log2 (1/2)] 分别表示100%染色体增加(复制)100%染色体减少缺失)。CNV区域、重复序列区域和着丝粒区域分别用蓝色线条、红色方框和黑色方框表示。CNV-seq 精确映射和测量终端断裂点。

 

 

讨论

本研究评估CNV-seq对染色体疾病检测的可靠性和准确性。通过检测 72 例经由 SNP array 确诊的样本,发现 CNV-seq 可取得 SNP array 完全一致的检测结果同时CNV-seq 检测到5未被 SNP array检出的次级 CNVs<1 Mb)。对这5次级 CNVs分析发现,CNV 区间缺少可供分析的 SNPs 导致SNP array未能检出总体而言,CNV-seq 准确检测全部或部分染色体非整倍体、微缺失/微重复(<1 Mb以及环染色体。此外,CNV-seq 可检测 0.1 Mb 的杂合性和纯合性缺失,这些微小缺失mate-pair 测序确认真实存在。由此可知CNV-seq 可用于检测具有临床意义的染色体疾病,具有高度的灵敏度和特异性。

 

CNV-seq 基因组覆盖度和分辨率之间实现平衡,且检测染色体疾病经济有效。为此,我们将测序序列产出设定为 500 同时以连续的60 kb 为基本测序单元,每条序列的平均读长为 150 ~ 165bp。尽管相同或不同样本每个测序单元读取序列具有随机性,CNV-seq 仍能精确检测一系列具有临床意义的 CNVs。虽然有必要对 CNV-seq 进行全基因组水平验证,本研究表明,CNV-seq可能适用于整个基因组范围的 CNV 分析(臂近着丝粒的高度重复区域、Y染色体q异染色质区域、着丝粒序列以及其他包含重复序列的区域除外16。此外,CNV-seq 检测获得 CNV 区域坐标和 SNP array结果高度一致。

 

由于 CNV-seq 的高性能,我们推测第二代测序技术优于SNP array。本研究还发现CNV-seq 可检测出与 X 连锁佩梅病相关的 PLP1 基因 0.22 Mb 的缺失,以及与帕金森病相关的 PARK2 基因0.08 Mb 的纯合性缺失。因此,CNV-seq 有可能发现0.1 Mb 缺失引起的常染色体隐性遗传、连锁和常染色体显性遗传病。另一方面,寡核苷酸微阵列芯片根据已知致病基因外显子区域设计探针,对涉及一个或多个外显子缺失的遗传病进行单基因检测检测范围染色体疾病扩展单基因病16,19。另外,SNP array 可根据特异性点突变微小缺失插入等设计SNP 探针,进一步扩大其检测单基因病的17,26不过目前尚无单一的微阵列平台用于临床染色体疾病和单基因病综合检测对于已知家族病史的单基因病检测除可沿用标准的 PCR 方法也可使用二代测序技术进行全外显子组检测35。相较于寡核苷酸微阵列和 CNV-seqSNP array 还可通过一系列连续 SNP 探针检测单亲二倍体和判断血缘关系16单亲二倍体在新生儿中的发病率为 0.03%36,最近有研究结合寡核苷酸和 SNP 平台进行单亲二倍体检测18,19

 

CNV-seq 可依据数据分析 CNV实现量化。本研究CNV-seq识别的所有染色体重复和缺失拷贝数均值 ± 标准误分别为 3.0 ± 0.1  1.0 ± 0.1,有潜力测定其他具有临床意义的CNVs以往研究发现CNV-seq 检测性染色体母体嵌合30和胎盘嵌合37,38,本研究进一步证实上述发现。随着对嵌合认识的日益加深39CNV-seq 可能成检测嵌合体的有效工具,更好诠释基因型表型关联。此外,滋养外胚层囊胚活检和全基因组扩增技术越来越多地被用于胚胎植入前遗传学诊断40,41CNV-seq 也可特异检测与滋养外胚层细胞相关的低水平嵌合42另外,CNV-seq可精确检测低至10ng的样本,微阵列技术更具临床适用性,可用于分析低样本量临床样本和宝贵的研样本,而微阵列技术所需的最低样本量则是其 20 倍。

 

在许多发展中国家,如印度和中国,产前诊断仍主要依赖于胎儿染色体核型分析、母血清学筛检和超声检测进行。无创性产前检测32的引进以及高危和低危孕妇群体的增加正逐渐改变这一现状,现已对早期染色体非整倍体的检测产生影响。然而,产后新生儿检查仍主要依赖表型,很少进行身体以及智力方面的评估。微阵列技术由于普及性差、价格高昂,仅限于小部分人作为辅助手段进行产前和产后检测。因此,新生儿和成人染色体疾病带来的社会和经济负担居高不下27-29。本研究检验了 CNV-seq在染色体疾病检测方面的效能结果表明,广泛推行的新一代测序技术有显著降低染色体疾病在发达国家和发展中国家的发病率。首先,CNV-seq 能检出大约 0.1 Mb CNVs 引发的已知染色体疾病,故可用于分析各类型样本,包括羊水、绒毛、流产组织和外周血;其次,测序试剂的成本将随着时间的推移而显著降低,加之工作流程简单CNV-seq 有望成为比微阵列技术更具扩展性且经济实惠的染色体疾病检测替代技术。此外,借助于更深层次的测序,CNV-seq 有望得改进,用于高分辨率 CNV  SNP 分析更全面地检测遗传性疾病。

 

补充资料

本文的补充材料见 http://dx.doi.org/10.1016/j.jmoldx.2014.05.002

参考文献略