1. 1. 引言
    1. 1.1. Y 染色体单倍群
    2. 1.2. DNA 微阵列
  2. 2. 材料与方法
    1. 2.1. 实验样本
    2. 2.2. 基因组芯片
    3. 2.3. 试剂与设备
      1. 2.3.1. 实验试剂
      2. 2.3.2. 软件与设备
      3. 2.3.3. 实验仪器
      4. 2.3.4. 实验软件
      5. 2.3.5. 阵列板
    4. 2.4. 检测流程
      1. 2.4.1. 评估基因组 DNA 样本的质量
      2. 2.4.2. 基因组 DNA 的纯化
      3. 2.4.3. 样品上机准备
      4. 2.4.4. DNA 扩增
      5. 2.4.5. 破碎与沉降
      6. 2.4.6. 干燥,重悬浮和质量控制
      7. 2.4.7. 进行定量和碎片 QC 检查
      8. 2.4.8. 变性杂交
      9. 2.4.9. 分装预混液
      10. 2.4.10. GeneTitanMulti-Channel Instrument 扫描阵列
    5. 2.5. 原始数据处理
    6. 2.6. 下机数据的处理
      1. 2.6.1. 数据的处理背景
      2. 2.6.2. Affymetrix SNP Arrays 分析
      3. 2.6.3. 导入 Affymetrix 数据
    7. 2.7. 单倍型的判定
      1. 2.7.1. Y 单倍型判定算法
      2. 2.7.2. 导入 Y-SNP Calling 数据
      3. 2.7.3. 导入突变转换文件
      4. 2.7.4. 导入质量控制文件
      5. 2.7.5. 参考基因组 SNP 状态
      6. 2.7.6. 输出的分析文件
      7. 2.7.7. 输出的 SNP 状态文件
    8. 2.8. 数据处理与分析
    9. 2.9. 数据处理原理
      1. 2.9.1. F-statistics 遗传距离
      2. 2.9.2. 分子方差分析(AMOVA)
      3. 2.9.3. Nei 标准遗传距离
      4. 2.9.4. 主成分分析
      5. 2.9.5. 系统发生树
    10. 2.10. 数据处理方法
      1. 2.10.1. 地理频率统计
      2. 2.10.2. 地图等位线图
      3. 2.10.3. 遗传距离的估计
      4. 2.10.4. 系统发生树
      5. 2.10.5. 主成分分析
  3. 3. 结果与讨论
    1. 3.1. 染色体单倍群的分布频率
    2. 3.2. Y 染色体单倍群频率与地理位置的关系
      1. 3.2.1. 东南地区遗传结构
      2. 3.2.2. 东北地区遗传结构
      3. 3.2.3. 西北地区遗传结构
    3. 3.3. Y 染色体单倍群与民族的关系
      1. 3.3.1. 汉族
      2. 3.3.2. 回族
      3. 3.3.3. 北方少数民族
    4. 3.4. Y 染色体与方言分布
    5. 3.5. Y 染色体与家族传承
  4. 4. 讨论与小结
    1. 4.1. 讨论
      1. 4.1.1. Y 染色体单倍群 D 的起源存疑
      2. 4.1.2. Y 染色体单倍群 Q 的起源问题
    2. 4.2. 小结
  5. 5. 结论

中国人群遗传结构分析及其与民族、文化关系的探讨

摘要:中国人群以其丰富的遗传,体质,文化和语言的多样性使得这里成为世界上研究遗传特征多样性与文化关系最为关键的区域之一。本文通过 Affymetrix Axiom®SNP 基因芯片对564个中国人群样本的染色体 SNP 位点进行测定并使用 AMY-Tree 对单倍群进行分类,使用 ARLEQUIN 计算出不同群间的 F-statistics 值、Nei 遗传距离并使用分子方差分析(AMOVA)进行交叉验证,使用 MEGA 绘制出各个种群的毗邻无根系统发育树,并对各个种群使用 ADE4进行主成分分析(PCA)以发现不同群体之间的遗传差异,从而帮助我们更好的了解中国的人群的遗传结构及与文化,历史的关系。

引言

中国是亚洲东部的一个区域,有着极其丰富的地理位置资源和生物多样性,中国占据着世界上16%的人口,并且在这一地区出土了异常丰富的古代人类化石,因此中国一直以来被认为是现代人类起源与迁徙关键的地区之一。体质人类学家将中国人群分为四种体质类型:分别为蒙古人种(新石器时代中国人)、澳大利亚人种(旧石器时代大洋洲人)、尼格利陀人种(旧石器时代东南亚人)、高加索人种(欧洲人)。与此同时中国又有着世界上最为丰富的语言资源,有着南亚、苗瑶、阿尔泰、汉藏、侗傣、南岛和印欧等七个语系,以及超过200多种的语言。中国人群极其丰富的遗传,体质,文化和语言的多样性使得这里成为世界上研究遗传特征多样性与文化关系最为关键的区域之一,随着分子人类学科的不断发展和中国地区人类基因数据的不断积累,将会使得中国地区人群的基因结构的多样越来越明晰。

Y 染色体单倍群

在遗传学上,将由多个 SNP 突变构成的一种突变谱被称为一种单倍型。通常用于追踪 Y 染色体谱系的标记主要有单核苷酸多态(Single Nucleotide Polymorphism,SNP)和短串联重复序列(Short Tandem Repeat,STR)两种,SNP 突变通常可以被用来追踪时间较久远的支系,而 STR 由于突变率高因此被用于追踪比较晚近的支系关系,现代人类学研究表明根据 SNP 的突变位点可以将世界上的所有人根据分为20个单倍群,Y 染色体单倍群命名协会(TheY Chromosome Consortium,YCC)对这20种主干单倍群按照英文字母顺序从 A 到 T 进行编号。

图1.1 Y 染色体单倍群演化树的主干部分

对世界范围内人群的单倍型频率进行统计,可以发现单倍群 A-M91和单倍群 B-M60只存在于非洲,单倍群 C-M168和单倍群 D-M174是最早来到了澳洲和亚洲的群体,而单倍群 E-M40则来到了亚洲后又折返回非洲,单倍群 F-M89是西方人种欧罗巴人的起源,这部分人群向北欧迁徙衍生出了单倍群 G-M201、单倍群 H-L901、单倍群 I-M170、单倍群 J-M304等单倍群构成了如今欧洲的人种结构,而衍单倍群 K-M9则衍生并形成单倍群 N-M231、单倍群 O-M175、单倍群 P-P295、单倍群 Q-M242等,这一部分的人种在往东亚迁徙的同时构成了如今亚洲的人种结构,其中单倍群 O-M175在东方形成蒙古人种成为了中国人的主流,而单倍群 Q-M242则沿着冰川时期的白令海峡越过大洋,一度成为了美洲印第安人的主流

DNA 微阵列

DNA 微阵列是附着到固体表面的 MicoDNA 斑块的集合。在 DNA 微阵列上每个 DNA 斑块都包含了特定长度的特异 DNA 序列,这些特异 DNA 序列称为探针(或称之为寡聚物)。使用 DNA 微阵列可以同时测量大量基因的表达水平和基因组多个区域的基因型。用于合成探针的材料可以是用于杂交的 cDNA 或 cRNA 的的样品的基因或其他 DNA 元件的短片段。实验样品通过与探针-靶杂交,并在尾端添加可以被用于检测的荧光基团,荧光基团可以是银或着其它化学发光标记的目标量化物,从而根据每个斑块荧光基团发光的强度以确定在目标核酸序列的相对丰度。

DNA 微阵列的原理是利用两条 DNA 链之间的杂交时核苷酸碱基对之间能够特异性地与彼此通过形成互补配对的氢键的属性。在杂交后数量众多的的碱基序列互补的碱基对会发生非共价键结合从而紧密的结合在一起。通过洗脱液洗脱去非特异性结合的序列后,只保留保持杂交配对链。这些保留下来的 DNA 片段能够与特定探针序列的荧光标记的靶序列相结合,从而产生杂交后用于检测杂交条件(例如温度)的信号。微阵列能够使用其中特征的强度,通过同样的特征的不同条件下的强度的相对定量,和已知位置特征的标识从而可以确定特定位点的基因型。

材料与方法

实验样本

本次实验 DNA 样本的来源为使用 DNA Genotek 的 Oragene DNA 采集试剂盒来采集人体的口腔上皮细胞,DNA Genotek 的 Oragene DNA 采集试剂盒所使用的 DNA 稳定剂的主要成分是酒精、1, 3丙二醇(1, 3-Propanediol)和2-氨基-2羟甲基类物质(2-amino-2-hydroxymethyl),能够保证样本在收集和运输途中的稳定性。

基因组芯片

由于全基因组芯片技术和全基因组测序在成本上的巨大差异,以及当前在消费级基因组服务内容方面的趋同,使得 WeGene 选择使用全基因组芯片技术为用户提供消费级个人基因组检测服务。WeGene V1个人基因组检测是一款针对中国人群设计的基于高通量基因芯片技术的个人基因组检测服务。所得到的检测结果覆盖了人类基因组上的绝大部分基因,在囊括全球人群的重要多态位点的同时也涵盖了迄今发现的中国人群中的多态位点,并且包括了主流基因解读数据库中所涉及的位点。检测结果可以满足诸如祖源,亲缘,运动,营养,药物等方面的解读需求,同时也可以用于中国人的大规模队列研究。

WeGene V1版芯片的整体设计原则是参考23andme V4 版芯片的检测位点,参考包括但不限于千人基因组、dbSNP、PharmGKB、ClinVar、HGDP 等数据库,添加最近几年的基因组学研究中发现的跟人类疾病、药物反应、遗传特征等有关的位点,设计并生产了 WeGene V1 版的个人全基因组芯片。此外,依据中国人群群体遗传学的研究结果,添加常染色体和 Y 染色体上用于进一步区分中国内部各个人群的位点。最后,根据生产厂商的技术平台进行少量筛选和优化。

WeGene V1选择了 Affymetrix 公司根据我们的设计方案生产芯片。所有位点的探针均为参考基因组正链上该位点上下各35bp 的序列( 总长度为70 bp ) 作为探针。根据 Affymetrix 公司的生产工艺,我们对部分可靠性较低的位点设计了重复探针,以此提高整体检测的准确性。

经过超过1000份样本的检测和质量控制,最终的检测位点数量约为60万。其中有约一半的位点位于基因区域,覆盖了约16000个基因。在各类功能区域的分布情况见表2.2。

表2.2 WeGene V1 检测结果在不同功能区域的分布

功能区域 位点数量
外显子区域 约45000
内含子区域 约240000
5’端 UTR 约1000
3’端 UTR 约8000

这些位点在各条染色体上的分布见图2.2。

图 2.2 WeGene V1 检测结果在各条染色体上的分布

试剂与设备

实验试剂

本次实验所使用的主要试剂由 Affymetrix 配套的 Axiom 2.0 Reagent Kit 提供:

表2.3.1 本次实验所使用到的主要试剂

试剂 来源 提供商
Axiom 2.0 Denat Soln 10X Axiom 2.0 Reagent Kit Affymetrix
Axiom 2.0 Neutral Soln Axiom 2.0 Reagent Kit Affymetrix
Axiom 2.0 Amp Soln Axiom 2.0 Reagent Kit Affymetrix
Axiom Water Axiom 2.0 Reagent Kit Affymetrix
Axiom 2.0 Amp Enzyme Axiom 2.0 Reagent Kit Affymetrix
Axiom 2.0 Denat Soln 10X Axiom 2.0 Reagent Kit Affymetrix
Axiom Water Axiom 2.0 Reagent Kit Affymetrix
Axiom 2.0 Amp Soln Axiom2.0 Reagent Kit Affymetrix
Axiom 2.0 Amp Enzyme Axiom 2.0 Reagent Kit Affymetrix
Axiom 10X Frag Buffer Axiom 2.0 Reagent Kit Affymetrix
Axiom Frag Diluent Axiom 2.0 Reagent Kit Affymetrix
Axiom Frag Enzyme Axiom 2.0 Reagent Kit Affymetrix
Axiom Frag Rxn Stop Axiom2.0 Reagent Kit Affymetrix
AxiomPrecip Soln 1 Axiom2.0 Reagent Kit Affymetrix
AxiomPrecip Soln 2 Axiom2.0 Reagent Kit Affymetrix
AxiomResuspension Buffer Axiom2.0 Reagent Kit Affymetrix
AxiomHybridization Buffer Axiom2.0 Reagent Kit Affymetrix
AxiomHybridization Solution 1 Axiom2.0 Reagent Kit Affymetrix
AxiomHybridization Solution 2 Axiom2.0 Reagent Kit Affymetrix
AxiomWash Buffer A Axiom2.0 Reagent Kit Affymetrix
AxiomWash Buffer B Axiom2.0 Reagent Kit Affymetrix
AxiomLigate Buffer Axiom2.0 Reagent Kit Affymetrix
AxiomLigate Enzyme Axiom2.0 Reagent Kit Affymetrix
AxiomLigate Soln 1 Axiom2.0 Reagent Kit Affymetrix
AxiomProbe Mix 1 Axiom2.0 Reagent Kit Affymetrix
AxiomStain Buffer Axiom2.0 Reagent Kit Affymetrix
AxiomStabilize Soln Axiom2.0 Reagent Kit Affymetrix
AxiomLigate Soln 2 Axiom2.0 Reagent Kit Affymetrix
AxiomProbe Mix 2 # Axiom2.0 Reagent Kit Affymetrix
AxiomWash A Axiom2.0 Reagent Kit Affymetrix
AxiomStain 1-A # Axiom2.0 Reagent Kit Affymetrix
AxiomStain 1-B # Axiom2.0 Reagent Kit Affymetrix
AxiomStain 2-A # Axiom2.0 Reagent Kit Affymetrix
AxiomStain 2-B # Axiom2.0 Reagent Kit Affymetrix
Axiom Stabilize Diluent Axiom2.0 Reagent Kit Affymetrix
AxiomWater Axiom2.0 Reagent Kit Affymetrix
AxiomHold Buffer # Axiom2.0 Reagent Kit Affymetrix

软件与设备

实验仪器

表2.3.2.1 本次实验所使用到的主要仪器

仪器 提供商
GeneTitan Multi-Channel Instrument* Affymetrix

实验软件

表2.3.2.2 本次实验所使用到的主要仪器

软件 开发商
GeneChip Command Console(AGCC) Affymetrix
Genotyping Console Affymetrix

阵列板

表2.3.2.3 本次实验所使用到的阵列板

仪器 设计商 生产商
WeGene V1 Genotyping Solution Array Plates WEGENE Affymetrix

检测流程

对数据进行分析的第一步骤是要获取 SNP 分型数据,只有获取到 Y 染色体 SNP 位点的分型数据才能够准确的对样本的 Y 染色体单倍型进行判断。

评估基因组 DNA 样本的质量

采集到唾液样本后需要对唾液样本的质量进行评估,给96孔板每孔加入10 ng 至20 ng 质量的唾液 DNA 样本,给每孔添加3 μL 的0.1x RedLoad 染料,用超纯水将每孔定容至20 μL,盖上盖子并摇晃震动以使的试剂充分混合,打开 E-Base,按下 PRG 按钮,以确保机器在 PRG 模式下运行,将两片48孔的1%琼脂糖 E-Gels 凝胶插入到插槽当中,将20 μL 混合均匀的的溶液加入到48孔的1%琼脂糖 E-Gels 凝胶孔中,给每个需要标记的孔中加入15 μL 的1:3稀释的 DNA 标记物,用水填满每个凝胶小孔,再次按下 PRG 键,让机器运行27 min,到达时间后系统会自动关闭。

图 2.4.1 DNA 样本的质量凝胶样本检测结果,左边为合格,右边为不合格

基因组 DNA 的纯化

由于采集到 DNA 样本中含有酶抑制剂因此需要对 DNA 样本进行纯化,给 DNA 样本中加入0.5倍体积的7.5 摩尔质量的乙酸铵(NH4OAc),2.5倍体积的储存在-20 ℃下的无水乙醇,搅动并放入-20 ℃冷储柜中1个小时,取出样本在室温下用小离心机12000G 离心20 min,取出上清液并用80%的酒精进行洗涤,用离心机12000G 离心5 min,去除酒精并重复用80%的酒精溶液进行洗涤,将样品重悬在 reduced 的 EDTA-TE 缓冲液中(10 mM Tris-HCl pH 8.0,0.1 mM EDTA)。

样品上机准备

水浴解冻下列试剂:DNA 样品,Axiom
参考 DNA 103(Axiom2.0试剂盒),定量稀释 DNA:摇匀 DNA 样品和 Axiom
参考 DNA 103,用 Quant-iT TM PicoGreendsDNA Kit 或者使用 EDTA-TE 缓冲液稀释每个样品至至10 ng,密封并混合均匀,分装稀释后的样品,分装20 μL 稀释的 DNA 样品和 Axiom 参考 DNA 103到 P/N702963深孔板,每板至少要有一个阳极对照,密封摇匀,-20 ℃保存的样品板,创建 GeneTitan Array Plate 注册文件,GeneTitan Array Plate 注册文件将保存着成像过程中产生的文件,并追踪每个 array plate 样品的实验结果。

DNA 扩增

DNA 扩增准备:将保温箱调至37 ℃,将离心机调整至室温,准备以下试剂,解冻解冻 DNA Plate 中的样品并混匀。

试剂 操作
Axiom 2.0 Denat Soln 10X 解冻、摇匀并保持室温
Axiom 2.0 Neutral Soln 解冻、摇匀并保持室温
Axiom 2.0 Amp Soln 解冻、摇匀并保持室温
Axiom Water 解冻、摇匀并保持室温
Axiom 2.0 Amp Enzyme Flick tube 3X,旋转,并保持在-20 ℃待用

标记15 mL 和50 mL 锥形管,内容如下表所示:

标记 管容量 温度 内容
D MM 15 mL 室温保存 Denaturation Master Mix
Amp MM 50 mL 室温保存 Amplification Master Mix

标记3个 solution basins,内容如下表

标签 温度 内容
D MM 室温保存 Denaturation Master Mix
Amp MM 室温保存 Amplification Master Mix
N Soln 室温保存 Neutralization Solution

制备变性预混液:使用 Axiom Water 适当的稀释 Axiom 2.0 Denat Soln 10X,并置于室温环境保存。

试剂 每份样品 Master Mix 96+
往15 mL 标记 D MM 的管中加入:
Axiom 2.0 Denat Soln 10X 2 μL 400 μL
Axiom Water 18 μL 3.6 mL
Total Volume 20 μL 4 mL

加入变性预混液:上下翻转摇匀样品板,将变性预混液导入标有 DMM 的溶液池,小心的从样品板上取下密封,使用 P20 12道移液器给每井加入20 μL 的变性预混液,该板为变性板,密封混匀变性板10 min,将变性板放置在转速为1000 rpm 离心1 min,目视检查每井的上液情况是否为40 μL/well,记录特别高或低的井,室温放置10 min 后,加入中和液。

加入中和液:将 Pour the Axiom 2.0 Neutral Soln 倒入标记为 N Soln 的溶液池中,小心的从样品板上取下密封,使用 P200 12道移液器给每井加入130 μL of Axiom 2.0 Neutral Soln,密封混匀旋转中和板,目视检查每井的上液情况是否为170 μL/well,记录特别高或低的井。

制备扩增预混液:移取适量的 Axiom2.0 Amp Soln 到标记过的50 mL 的管中:

试剂 每份样品 Master Mix 96+
给标记了 Amp MM 的50 mL 管中加入
Axiom 2.0 Amp Soln 225 μL 26.0 mL
Axiom 2.0 Amp Enzyme 5 μL 578 μL
Total Volume 230 μL 26.58 mL

从-20 ℃的冰箱中取出 Axiom 2.0 Amp Enzyme(安培酶),摇晃3次并旋转,按照上表的量加入到标记了 Amp MM 的50 mL 管中,搅拌扩增预混液,翻转2次试管,接着继续搅拌,缓慢将扩增预混液倒入标有 Amp MM 的溶液池,小心的从中和板上取下密封,使用 P200 12道移液器给每井加入230 μL 的扩增预混液,并吹打井壁,现在每井的溶液体积为每井400 μL,将扩增板放置在转速为1000 rpm 离心1 min,将密封扩增板放置在37 ℃烘箱23±1小时,将扩增板储存在-20 ℃的环境下备用。

破碎与沉降

准备并添加扩增预混液:将扩增板放置到65 ℃的烘箱当中20 min,同时开始制备试剂:

试剂 操作
Axiom10X Frag Buffer 混匀、摇匀、放在冰上备用
AxiomFrag Diluent 混匀、摇匀、翻转、放在冰上备用
AxiomFrag Enzyme 摇动试管3次、放在-20 ℃环境下
AxiomFrag Rxn Stop 混匀、摇匀、室温保存备用
AxiomPrecip Soln 1 混匀、摇匀、室温保存备用
AxiomPrecip Soln 2 混匀、摇匀、翻转、室温保存备用
Isopropanol 室温保存备用

将扩增板从65 ℃烘箱转移到37 ℃烘箱45 min,将离心机温度调整至室温,按照下表,标记15 mL 和50 mL 的 conical tubes。

标记 管容量 温度 内容
Frg MM 15 mL 放置在冰上备用 Fragmentation Master Mix
Precip MM 50 mL 置于室温备用 Precipitation Master Mix

按照下表,标记 solution basins(溶液池):

标签 温度 内容
Frg MM 置于室温备用 Fragmentation Master Mix
Stop 置于室温备用 Frag Rxn Stop
Precip MM 置于室温备用 Precipitation Master Mix
ISO 置于室温备用 Isopropanol

准备裂解预混液:当37 ℃烘箱烘烤过程还剩5 min 时开始按照下表制备裂解预混液,转移 AxiomFrag Enzyme 至-20 ℃待用。

试剂 每份样品 Master Mix 96+
给标记了 Frg MM 的15 mL 管加入:
Axiom10X Frag Buffer 45.7 μL 6.0 mL
AxiomFrag Diluent 10.3 μL 1.35 mL
AxiomFrag Enzyme 1.0 μL 131.0 μL
Total Volume 57 μL 7.48 mL

在45 min 的37 ℃培养结束前,抖动 Axiom Frag Enzyme 试管2-3次,在结束培养过程后,往破裂解混液中加入 Axiom Frag Enzyme,旋转2次并置于冰上,在室温下缓慢将裂解预混液倒入标记为 Frg MM 的溶液池之中。

添加裂解预混液:小心的将扩增从37 ℃的烘箱中取出并置于室温环境下,小心的从扩增板上取下密封,用 P200 12通道的移液器给每井加入57 μL 的裂解预混液,密封裂解板并且旋转2次,用1000 rpm 室温环境的离心机进行离心,快速将板转移至37 ℃的烘箱中培养30 min。

分装终止液:在30分钟的培养过的前几分钟,将 Axiom Frag Rxn Stop Solution 倒入标记为 Stop 的溶液池之中,小心的将裂解板从37 ℃的烘箱中取出并置于室温环境下,小心的从破碎板上取下密封,用 P200 12通道的移液器给每井加入19 μL 的终止液终止结束裂解液,密封摇晃,并用1000 rpm 室温环境的离心机进行离心,将板置于台面待用。

准备并添加沉降预混液:按照下表,将试剂添加到50 mL 标记有 Precip MM 的管中:

试剂 每份样品 Master Mix 96+
给50 mL 标记有 Precip MM 的管加入:
AxiomPrecip Soln 1 238 μL 26 mL
AxiomPrecip Soln 2 2 μL 218 μL
Total Volume 240 μL 26.22 mL

在室温环境下,旋转 Precip MM 试剂管,小心的将沉降预混液倒入标记有 Precip MM 的溶液池中,小心的从破碎板上取下密封,用 P200 12通道的移液器给每井加入240 μL 的沉降液终止结束裂解液,密封摇晃旋转沉降板,将沉降板从离心机中取出放置到桌面上,将异丙醇溶液倒入标记为 ISO 的溶液池当中,小心的从破碎板上取下密封,用 P200 12通道的移液器给每井加入600 μL 的异丙醇并吹打拌匀,上下翻转溶液以确保混合均匀,用 Kimwipe 擦拭板的上部,并用 Microamp 封紧,小心的将沉降板转移到-20 ℃的冰箱中放置16-24个小时。

干燥,重悬浮和质量控制

干燥颗粒及解冻试剂:打开烘箱并预热至37 ℃,开始解冻下列的试剂:

试剂 操作
AxiomResuspension Buffer 放置在室温环境1小时
AxiomHybridization Buffer 混匀、放置在室温环境下
AxiomHybridization Solution 1 搅拌、混匀、翻转、放置在室温环境下
AxiomHybridization Solution 2 混匀、翻转、放置在室温环境下

从-20 ℃的冰箱中取出沉降板并用4 ℃ 3200 xg 的离心机离心40分钟,在离心过程中可以准备重悬浮和杂交试剂,小心的取下密封,将板翻转过来倒掉上清液,倒置并用 Kimwipes 吸干5 min,正面朝上在37 ℃的烘箱中烘烤20 min;

重悬浮和杂交预混液的准备:将 Axiom Resusp Buffer 倒入标有 Resus 的溶液池中,小心的从沉降板中取下密封,用 P200 12通道的移液器给每井加入35 μL 的 Axiom Resusp Buffer 并吹打拌匀,改板现在被成为重浮版,密封重悬板,将重悬板放置在 Jitterbug 上7-10震荡分钟,在震荡的时候,用标记为 Hyb MM 15 mL 的管准备杂交预混液,旋转2次混合均匀,从底部检查重悬板,如果颗粒不溶解,则重复步骤。

试剂 每份样品 Master Mix 96+
给 Hyb MM 15 mL 的管加入:
AxiomHyb Buffer 70.5 μL 7.8 mL
AxiomHyb Soln 1 0.5 μL 55.6 μL
AxiomHyb Soln 2 9 μL 1.0 mL
Total Volume 80 μL 8.86 mL

用1000 rmp 的小离心机离心,给一个 Bio-Rad 的硬壳96孔板贴上标签,例如 HSP-9631,作为杂交准备板,调整 P200 12通道移液器至45 μL,用移液器将重悬液各孔中的物质全部转移到杂交准备板,将杂交预混液倒入标有 Hyb MM 的溶液池当中,用 P200 12通道移液器给每井加入80 μL 的杂交预混液,密封、旋转2次,准备 QC 步骤的稀释溶液。

进行定量和碎片 QC 检查

将不含有核酸的水(超纯水)倒入标签为 H2O 的溶液池中,用于制作 QC 稀释板和 QD 板,给 QC 稀释板每井加入33 μL 的无核酸水,从杂交准备板中每井移取3 μL 的杂交准备样品(Hyb Ready sample)到 QC 稀释板相应的井里头,密封,用涡旋机涡旋,旋转,小心的将 QC 稀释板中的密封移除,从 QC 稀释板中转移10 μL 的样品到标记为 QD 的板中,给每孔加入90 μL 的无核酸水,用枪头吹打稀释后的样品质量为稀释之前的120倍,给凝胶样品板的每井加入120 μL 的凝胶上样染料,从 QC 稀释盘每井转移3 μL 的样品到凝胶样品板,用涡旋机涡旋,旋转。

添加50 μL 的 ackIt Cyan/Orange Loading Buffer 到49.95 mL 的无核酸水中,总体积为50 mL 将 rackIt Cyan/Orange Loading Buffer 稀释1000倍,拌匀,在室温环境下保存,涡旋板中央3 sec,2000 rpm 旋转30 sec,打开两台 E-Bases 的电源,按下 PRG 按钮并确保是在 EG 模式下运行,将 E-Gels 放入 base units,从凝胶样品板取20 μL 的样品上样,加入15 μL 25个碱基梯度的 TrackIt 到每个 maker 井,给没有上样的孔用20 μL 的水密封,跑胶22 min,对凝胶结果拍照,QC 检查结束后丢弃 QC 稀释板、OD 板、凝胶样品板。

图2.4.3.3 QC 检查结查的凝胶结果

变性杂交

准备设备和进行变性:在48 ℃的烘箱种预热96孔金属腔(metal chambe);在设置 GeneTitan MC 进行杂交前预热阵列板(array plate),将阵列板放置在室温下至少25 min,打开封装阵列板的袋子,扫描阵列版条形码进行 Batch Registration file 注册;确保打开热循环仪上的电源和 Axiom 2.0 Denature program 上的热盖;打开热循环仪的盖子将密封的杂交准备板放入,检查密封气密性的在变性的过程中产生的影响,盖上盖子,启动 Axiom 2.0 Denature program,在程序运行中进行试剂准备。

表2.4.7 从 Module 3 (P/N 901472)取出的试剂

试剂 Temp Out of Module 操作
Axiom Wash Buffer A 室温 在灌装进 GT 瓶前,颠倒试剂2-3次
Axiom Wash Buffer B 室温 在灌装进 GT 瓶前,颠倒试剂2-3次
Axiom Water 室温 N/A

对 GeneTitan MC Instrument 进行初始化设置并上传 Batch Registration File 文件。

准备杂交盘并装入 GeneTitan MC Instrument:在 Axiom 2.0 Denature program 结束后,将杂交预备板从热循环仪中取出放入9648 ℃预热过得孔金属腔中,将变性过的杂交预备板和金属腔放入通风橱,移除密封,从 Axiom Array GeneTitan Consumables Kit 中取出杂交盘并标记,将 P200 12通道移液器调整到150 μL,缓慢的将变性后的杂交预备液转移到杂交盘中,确保杂交盘没有气泡,将杂交盘装入 GeneTitan MC Instrument,杂交在 GeneTitan MC Instrument 中进行23.5-24个小时。

准备连接、染色和稳定试剂:按照下表准备试剂准备:

试剂 Temp Out ofModule * 操作 储存
AxiomLigate Buffer 室温解冻 放置在室温30 min;检查沉淀物;涡旋2次;检查沉淀物;用手预热并涡旋30 sec 放置在冰上
AxiomLigate Enzyme 保存在–20 ℃的冰箱里 弹试管2-3次混合试剂,旋转;保存在–20 ℃的冰箱里 保存在–20 ℃的冰箱里
AxiomLigate Soln 1 室温解冻 涡旋、旋转 放置在冰上
AxiomProbe Mix 1 室温解冻 涡旋、旋转 放置在冰上
AxiomStain Buffer 室温解冻 涡旋、旋转 放置在冰上
AxiomStabilize Soln 室温解冻 涡旋、旋转 放置在冰上
AxiomLigate Soln 2 室温解冻 涡旋、旋转
AxiomProbe Mix 2 # 放置在冰上 涡旋、旋转 放置在冰上
AxiomWash A 放置在台面 涡旋2次;放置台面30 min;检查沉淀
AxiomStain 1-A # 放置在冰上 弹试管2-3次混合试剂,旋转; 放置在冰上
AxiomStain 1-B # 放置在冰上 弹试管2-3次混合试剂,旋转; 放置在冰上
AxiomStain 2-A # 放置在冰上 弹试管2-3次混合试剂,旋转; 放置在冰上
AxiomStain 2-B # 放置在冰上 弹试管2-3次混合试剂,旋转; 放置在冰上
Axiom Stabilize Diluent 放置在冰上 涡旋、旋转;检查沉淀 放置在冰上
AxiomWater 放置在冰上 N/A 放置在冰上
AxiomHold Buffer # 室温 涡旋

准备连接、染色和稳定预混:按照下表标记连接、染色和稳定预混管。

Conical Tube 数量 标记 内容 条件
50 mL 1 S1 Stain 1 Master Mix 放置在冰上
15 mL 1 S2 Stain 2 Master Mix 放置在冰上
15 mL 1 Stbl Stabilization MasterMix 放置在冰上
15 mL 1 Lig Ligation Master Mix 放置在冰上

按照下表标记溶液池:

标记 内容
S1 Stain 1 Master Mix
S2 Stain 2 Master Mix
Stbl Stabilization Master Mix
Lig Ligation Master Mix
Hold Axiom Hold Buffer

准备染色预混1:用单通道移液器将下列试剂按照下表添加到标记为 S1的50 mL 试管中,轻轻的颠倒试管10次使溶液充分混合,将预混液放置在冰上并用铝箔覆盖避免光线直射。

表2.4.7.1 染色预混物反应体系1

试剂 每份阵列板 Master Mix 96+
往标记为 S1的管中加入:
AxiomWash A 201.6 μL 22.2 mL
AxiomStain Buffer 4.2 μL 463 μL
AxiomStain 1-A 2.1 μL 231 μL
AxiomStain 1-B 2.1 μL 231 μL
Total 210 μL(105 μL x 2) 23.13 mL

准备染色预混2:用单通道移液器调整至15 mL 将下列试剂按照下表添加到标记为 S2的50 mL 试管中。

表2.4.7.2 染色预混物反应体系1

试剂 每份阵列板 Master Mix 96+
往标记为 S2的管中加入:
AxiomWash A 100.8 μL 11.1 mL
AxiomStain Buffer 2.1 μL 231 μL
AxiomStain 2-A 1.05 μL 115.6 μL
AxiomStain 2-B 1.05 μL 115.6 μL
Total 105 μL 11.56 mL

轻轻的颠倒试管10次使溶液充分混合,将预混液放置在冰上并用铝箔覆盖避免光线直射。

准备稳定预混:用单通道移液器调整至15 mL 将下列试剂按照下表添加到标记为 Stbl 的50 mL 试管中。

表2.4.7.3 稳定预混物反应体系

试剂 每份阵列板 Master Mix 96+
往标记为 Stbl 的管中加入:
AxiomWater 93.19 μL 10.3 mL
AxiomStabilize Diluent 10.50 μL 1.16 mL
AxiomStabilize Soln 1.31 μL 144.8 μL
Total 105 μL 11.61 mL

高速旋转预混液3 sec 使溶液充分混合,将预混液放置在冰上。

准备连接预混:将标记为 Lig 的 conical tube 放置在冰上,用单通道移液器调整至15 mL 将下列试剂按照下表添加到标记为 Lig 的50 mL 试管中,轻轻的颠倒试管10次使溶液充分混合,将预混液放置在冰上。

表2.4.7.4 连接预混物反应体系步骤1

试剂 每份阵列板 Master Mix 96+
往标记为 Lig 的管中加入:
AxiomLigate Buffer 66.15 μL 7.3 mL
AxiomLigate Soln 1 13.12 μL 1.45 mL
AxiomLigate Soln 2 3.15 μL 348 μL
Total 82.42 μL 9.10 mL

将 Axiom Ligation Enzyme 从-20 ℃的冰箱移至-20 ℃的冷却器冷却至-20 ℃,将标记为 Lig 的 conical tube 放置在冰上,用单通道移液器调整至15 mL 将下列试剂按照下表添加到标记为 Lig 的50 mL 试管中。

表2.4.7.5 连接预混物反应体系步骤2

试剂 每份阵列板 Master Mix 96+
Ligation Master Mix from Stage 1 82.42 μL 9.10 mL
AxiomProbe Mix 1 10.5 μL 1.16 mL
AxiomProbe Mix 2 10.5 μL 1.16 mL
AxiomLigate Enzyme 1.58 μL 174.4 μL
Total 105 μL 11.59 mL

轻轻抖一抖 Axiom Ligate Enzyme 试管2-3次,然后快速的旋转,然后添加到预混液中,轻轻的颠倒试管10次使溶液充分混合,将预混液放置在冰上并用铝箔覆盖避免光线直射。

分装预混液

从 the Axiom GeneTitan Consumables Kit 中取出扫描盘、染色盘和盖子,标记2块染色盘为 S1,剩余的染色盘标记为 S2、Stbl 和 Lig。

分装染色液1预混液:将 S1预混液倒入标记为 S1的溶液池,室温放置,用 P200 12通道的移液器给 S1盘加入105 μL 的 S1染色预混液,用枪头刺破气泡,用 Kimwipe 擦拭溅出来的试剂。

分装染色液2预混液:将 S2预混液倒入标记为 S2的溶液池,室温放置,用 P200 12通道的移液器给 S1盘加入105 μL 的 S2染色预混液,用枪头刺破气泡,用 Kimwipe 擦拭溅出来的试剂,给 S2盘盖上盖子,避免光线直射。

分装稳定液预混液:将稳定预混液倒入标记为 Stbl 的溶液池,室温放置,用 P200 12通道的移液器给稳定盘加入105 μL 的稳定预混液,用枪头刺破气泡,用 Kimwipe 擦拭溅出来的试剂,给稳定液盘盖上盖子。

分装连接液预混液:将连接预混液倒入标记为 S1的溶液池,室温放置,用 P200 12通道的移液器给 Lig 盘加入105 μL 的连接预混液,用枪头刺破气泡,用 Kimwipe 擦拭溅出来的试剂,给 S2盘盖上盖子,避免光线直射。

分装 Axiom Hold Buffer:将 Axiom Hold Buffer 倒入标记为 S1的溶液池,室温放置,从袋中取出扫描盘,准备扫码器扫描盘盖,用 P200 12通道的移液器给 S1盘加入150 μL 的 S1染色预混液,用枪头刺破气泡,用 Kimwipe 擦拭溅出来的试剂。

GeneTitanMulti-Channel Instrument 扫描阵列

创建和上传批量注册文件:在 AGCC(Affymetrix GeneChip Command Console)中选择 array plate format (96 samples) 打开一个 batch registration file template;扫描阵列板的条形黄色条码区域,输入一个唯一的名称保存,上传文件。

仪器设置:启动 AGCC 选择 AGCC GeneTitan Control,系统会进行初始化;选择 System Setup 选项卡,设置 Hyb-Wash-Scan,进行下一步,扫描或者输入 Axiom 的阵列盘信息,选择条码协议(550094.protocol = for Affymetrix 96-array plate barcodes),进行下一步;缓冲液装瓶:Wash A 填满2L Axiom Wash Buffer A ;WashB 每块板填满从 the reagent kit 取得的600 mL Axiom Wash Buffer B,两块板着填满1L;Rinse 填满1L 的 Axiom Water;清空废液瓶;按下 GeneTitan MC Instrument 的 Confirmation 继续,将会进行溶液检查;清空 trash bin,按 Confirmation 继续;移除使用过的耗材盘和板,按 Confirmation 继续。

将 Axiom 阵列板和杂交预备板放入 GeneTitan MC Instrumen:在6号抽屉下完成下列项目:检查杂交盘是否存在气泡,如果存在气泡则用移液器头将气泡刺破,将无盖的杂交盘放置在抽屉的右侧,从袋中取出阵列板和蓝色保护基底并装载到 GeneTitan MC 仪器中去,将带有蓝色保护基底的阵列板放置在抽屉的左侧,点击 Confirmation 按钮继续,选择需要扫描的阵列,点击 Next,点击 OK 开始处理样品,当6号抽屉打开后取下堆叠板,轻轻的按下两块板的确保每个夹子都扣紧,检查堆叠板底下的气泡,如果有气泡这轻轻敲击,重新安放堆叠版并按 Confirmation 继续,按照前面的步骤加载第二块阵列板;

连接、清洗和扫描:正确的安放 GeneTitan Tray Consumables;杂交过程结束后按照提示继续进行染色、连接和固定操作,再一次填充 Wash Bottles A 、B 和 the Rinse Bottle,Wash bottle A 填充2L,Wash Bottle B 和 Rinse Bottle 填充1L,清空 trash bin,按照提示移除移除 consumable trays,留下蓝色保护基底;按照窗口提示加载消耗物盘:将带盖的扫描盘放入2号抽屉,移除黑色保护基底,将1号染色盘和连接盘放置在3号窗口,将2号染色盘和稳定液盘放入4号抽屉,将另一块1号染色盘放置在5号抽屉,检查每个盖的液滴,如果托盘上存在液滴用 Kimwipes 擦拭干净,重新载入托盘,点击 Yes 继续;选择 Setup Another Run 点击 Next,扫描 Axiom 阵列板,Next;当6号抽屉打开后,移除之前阵列胖的蓝色盖子,在左边加载新的阵列板,在右边加载新的杂交盘,按 Confirmation 继续,点击 OK,但6号抽屉弹出,扣紧堆叠板,按 Confirmation 按钮继续。

处理结束后,将完成杂交的堆叠版从芯片杂交箱暂时放入1号抽屉,将6号抽屉的堆叠板移至芯片杂交箱,将1号抽屉堆叠版移动至 unclamped station 解开夹子后移动到 fluidics area;结束流液过程后,板会移动到扫描器上进行扫描过程;当完成 GeneTitan MC Instrument 处理流程后取下杂交板并密封,储存在-20 ℃的环境下;关闭 GeneTitan MC Instrument:在 System Setup 选择 Unload Plates,按照提示卸载所有的耗材,从 Tools 选择关机;

原始数据处理

下机数据的处理

从 GeneChip Command Console (AGCC)下载原始数据后进行后续操作,下载的数据文件格式为.CEL,CEL 文件存储着 DAT 文件的像素密度记录值的结果,每个的像素记录着每个 feature 的图像的信号值和定位信息,同时还需要一份探针在芯片上的定位信息,用 CDF 文件格式存储,CDF 文件描述了一个 AffymetrixGeneChip 阵列的布局,在芯片上所有探针组的名称都是唯一的。

数据的处理背景

生物芯片实际上就是一堆基因特异探针的集成的,生物芯片原理是将文库标记后的目标核苷酸酸片段(mRNA、cDNA 等)与生物芯片上的探针特异性的杂交,由于氢键作用力的作用与探针有特异性结合的目标核苷酸酸片段在经过洗脱流程后能够保留了下来,这个时候再在探针的末端加上可以发光的荧光基团,就能够在被成像系统捕捉下来。

为了能够减少实验产生的噪音,Affymetrix 在设计基因芯片的时候,对于每个簇都集成了20组由25个碱基组成的特异性探针,这些探针组被称之为 Perfect Match(PM)探针。为了能够在基因芯片上实现阴对内参,Affymetrix 设计了20组与前面所提的探针序列基本相同但正中间的一个碱基被换成了一个非特异的碱基,从而可以做到对杂交效果的检测,这一部分的探针组被称之为 MisMatch(MM)探针。

图3.1.1 SNP 基因芯片的生物信息处理流程

获取到芯片数据后需要对芯片数据进行处理,常规的芯片处理流程需要进行步骤:背景较正(background adjustment),归一化(标准化,normalization)和总结(summarization)。

但是,实际上背景较正对于 SNP 芯片处理来说并没有太大的意义。因为对于高通量的 SNP 芯片来说,并不是平行实验中的对应的探针都能够足够强的信号,尤其是对于次等位基因来说。为此,Affymetrix 改变了它的传统处理芯片的方式,转向使用动态模型(dynamic model,DM)算法。在这一算法当中,有四个高斯模型,Null,AA,AB,以及 BB,对每一个 SNP 都用套用这四个模型,看属于那个分布。需要注意的是 DM 算法是分别对每一个芯片单独运算的。

2006年,Affymetrix 公司基于 RLMM 算法提出了一种改进算法 BRLMM(Bayesian Robust Linear with Mahalanobis distance)。这一算法是在 RMA 的基础上又加上了 Bayesian 算法。Irizarry 等在 RMA 的基础上于2007年推出了针对 SNP 芯片的 SNPRMA 算法。而这一算法如同他们推出的 RMA 算法一样,很快成为主流,SNPRMA 算法的步骤如下:

  1. (1)对于每一个芯片,估算出探针碱基倾向性,SNP 所在的位置,及长度带来的影响,以便以后的步骤中移除;
  2. (2)使用四分位标准化(quantile normalization)方法消除芯片与芯片之间的差异;
  3. (3)对于每个 SNP、alleles 以及双链,应用线性模型对 PM 探针信号做出总结;
  4. (4)对于每条链(strand),对 alleles A 和 B 求出信号强度,去除第一步中得到的碱基倾向性,SNP 所在的位置及长度带来的影响,以及总信号强度的影响(total intensity effect);
  5. (5)而后对于每个 SNP 的平均值及变化使用 empirical Bayes 或者最大似然比(maximizing the likelihood)进行估计;

R 语言与 BioconductorR 语言是一种主要应用于数据挖掘、统计分析和数学绘图的编程语言与操作环境。R 语言是由新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼共同开发,现在由”R 开发核心团队”负责开发。Bioconductor 的产生则是计算生物学及生物信息学(Computational Biology and Bioinformatics,CBB)发展的产物,Bioconductor 出现的时代背景是一方面,随着测序技术的进步,产生了前所未有的高通量生物信息,而另一方面,随着计算生物学的发展,将会有更多的数学方法及模型被引入到生物学当中来。因此 Bioconductor 出现的目的是有效降低 CBB 的门槛,从而方便准确地使用数据工具来处理海量的生物信息。

Affymetrix SNP Arrays 分析

Oligo 是一个 Bioconductor package,用于预处理寡核苷酸芯片,目前支持 Affymetrix 公司和 NimbleGen 公司的芯片,通常用于分析表达谱数据、SNP 数据和外显子阵列,Oligo 提供了一个预处理的统一框架和 Bioconductor 公认的数据展现形式,该软件支持大数据集,并且提供了常见任务并行执行像背景扣除,标准化和总结。

这里使用 Oligo 进行基因分型,需要准备:

  1. (1)Oligo 及其依赖环境;
  2. (2)芯片特殊数据包,例如:mappingxba240,该包可以由 makePlatform Design 制作后转化成 pdInfoBuilder 的包,该包包含了芯片阵列的规格和 SNP 注释信息;
  3. (3)CEL 文件,由 GeneChip Command Console (AGCC)获取的原始数据;

Workflow 完成后输出的文件包括 genotype calls 和被存储的 confidences;

导入 Affymetrix 数据

Affymetrix 提供的数据使用 CEL 格式的文件,Oligo 继承 list.files 封装了一个 list.celfiles 工具,用于简化文件数据的访问:

R>library(“oligo”)R>library(“hapmap100kxba”)R>pathCelFiles <- system.file(“celFiles”,package = “hapmap100kxba”)R>fullFilenames <- list.celfiles(path = pathCelFiles,full.names = TRUE)R>outputDir <- file.path(getwd(),”crlmmTest”)

Oligo 改进了由于 SNPs 的处理的流程,Oligo 的处理流程分为以下几个步骤:

  1. (1)对参考序列的分布归一化;
  2. (2)通过 SNPRMA 算法进行 Summarization;
  3. (3)通过 CRLMM 算法进行基因分型;

Normalization 步骤根据引用参考序列基于270份的 Hapmap 样本,对样本的观察到的强度进行均衡,Normalization 步骤可以消除由非生物学因素带来的系统的偏差,参考样本的数据可以从 Hapmap 数据库获取(http://www.hapmap.org)。

SNPRMA 算法用于 Summarization 数据,SNP 阵列的设计具有高达250K 的密度,具有两条链上的位点分别设计的探针,因此,对于多大250K 密度的阵列,SNPRMA 将在 SNP-Allele-Strand-level 创建一个 summaries,对于每 SNP 位点都具有4分位。

CRLMM 算法用于基因分型,通过 EM(最大期望值)算法计算混合回归来调整在数比范围内调整平均密度和碎片长度,EM 算法分为两个步骤,第一步是期望值(E)的计算,通过利用对隐藏变量现有的估计值,计算出其最大似然估计值;第二步是最大化(M)的计算,最大化在计算出期望值(E)的基础上通过求得的最大似然值从而来计算参数的值,CRLMM 算法的用法如下

R> crlmm(fullFilenames,outputDir,verbose = FALSE)Removing temporary files … OK.

CRLMM 算法运行之后回将结果存储在硬盘上,从而避免占用太大的内存空间,可以使用 getCrlmmSummaries 方法,创建一个 SnpCallSetPlus 或者 SnpCnvCallSetPlus 对象,这里需要获取的是 SNP calling 的数据因此使用 calls()方法来获取一个 SnpCallSetPlus 的操作对象。

R> crlmmOut <- getCrlmmSummaries(outputDir)R> calls(crlmmOut[1:2,1:2])

## NA06985.CEL NA06991.CEL
## SNP_A-1510136 3 3
## SNP_A-1518245 3 3

为了方便存储,基因型数据在硬盘中表示的格式为1(AA),2 (AB) and 3 (BB),下面获取每个 SNP call 预测正确的概率:

R> confs(crlmmOut,FALSE)[1:5,1:2]

## NA06985.CEL NA06991.CEL
## SNP_A-1510136 1 1
## SNP_A-1518245 1 1

基因分型得到的结果是由 man_fsetid 表示的,man_fsetid 是芯片的位点数据,所以为了能够更加深入的对基因分型的数据进行处理,需要将 man_fsetid 转化为具体的 SNP 标示位点级 SNP 位点在染色体上的位置,Oligo 提供了可以用于注释查询的 SQL 语句接口,可以通过 man_fsetid 字段查询 SNP 位点的信息:

R> conn <- db(pd.mapping50k.xba240)R> dbListTables(conn)

[1] “featureSet” “man_fsetid” “pm_mm”
[4] “pmfeature” “qcmmfeature” “qcpm_qcmm”
[7] “qcpmfeature” “sequence” “sqlite_stat1”
[10] “table_info”

通过 man_fsetid 查询 SNP 位点信息:

R> sql <- “SELECT man_fsetid,chrom,physical_pos FROM featureSet WHERE man_fsetid LIKE ‘ SNPR> dbGetQuery(conn,sql)

1 SNP_A-1650338 2 168433267
2 SNP_A-1716667 19 40749462
3 SNP_A-1712945 19 53411226
4 SNP_A-1717655 21 31501701

最终我们可以得到一份 SNP 基因分型的结果,文件格式如下,rsid 为已知的 SNP 位点编号,可以通过 rsid 到 NCBI 或者 Hapmap 查询详细的 SNP 位点信息,position 为 SNP 位点在染色体上的具体位置,genotype 为基因分型的结果:

rsid chromosome position genotype
rs8179414 1 565400 AA
rs9701055 1 565433 CC
rs1972379 1 56769 AC

单倍型的判定

Y 单倍型判定算法

为了能够更为准确的对单倍型进行预测,在尝试了大量的分类方法并没有得到理想的结果后,在德国马普人类历史科学研究所和哈佛大学医学院遗传系王传超博士的指导下,最终决定选用国际上分子人类学研究广泛使用的 AMY-Tree 算法作为本次研究的单倍群主要分类方法。

图3.2.1 AMY-Tree 算法示意图

AMY 算法可以对确定 Y 染色体单倍群提供准确的建议,论文作者已经通过使用来自不同地区的109个男性的全基因组数据来成功的验证 AMY 树的准确度,AMY 树搜索算法使用 Y 染色体单倍群树,可以将查找步骤拆分为各个子算法来并行的加快程序的处理速度,通过判断每个节点的状态来确定样品所在的染色体单倍群,AMY 树的算法
如下:

(1)垂直子算法,垂直子算法能够通过检查每个叶节点的 Y 染色体单倍型对应的 SNP 位点的状态是否为真,由于这棵树所有的根节点都在左边而所有的叶节点都在右边,因此这个子算法又被称之为垂直子算法,在图中的矩形,方框中的单倍型为真,X1a,Z2b*and Z2b3.,

(2)但是垂直子算法并只检查了每棵树的叶节点,没有深入到树的内部,因此不能够排除 SNP 位点存在假阳性的可能,从而返回了一个错误的结果,因此需要对从根出发一直到每个叶节点通过节点间的链接的水平子算法来计算,由于该算法大致上是从左到右水平判断每个节点的状态,因此这个子算法也被称之为水平子算法,这种算法从左边的根节点开始逐个的检查每个子节点的状态是否为真,知道没有节点没有其子节点或者改节点的所有子节点的状态均为否,并且返回最后一个节点的状态为 True 的节点,如上图水平算法返回的结果为 Z2b,

(3)接下来需要中和垂直子算法和水平子算法的结果来获取更准确的判断结果,只有当垂直算法返回的叶节点同时该节点也存在于水平子算法的结果中将会直接有第三子算法返回分类的结果,但是这个算法同样会由于在水平算法中纯在假阴性的节点从而照成结果的误判,如图在垂直子算法返回了结果为 X1a,Z2b*and Z2b3,水平子算法返回的结果为 Z2b,由于 Z1的点与水平子算法的结果 Z2b 并不相符,因此只保留 Z2b* and Z2b3a 两个点,保留的两个点均为 Z2b 的子节点因此,由于 SNP calling 不可避免的存在大量的误差因此,因此返回保留的两个结果。

(4)第四个子算法继续对子树经行判断,查找匹配链条最为完整的路径的叶节点并返回查找的结果,本例中,该步骤返回的结果为 Z2b3a,如果存在多个匹配的结果这返回匹配结果的列表作为 Amy 树查找的结果。

AMY 树算法的强大之处在于可以组合各种不同的策略充分的利用 SNPcalling 的结果,从而降低由于 SNP calling 或者是 Y 染色体单倍型树造成的负面影响。

构建 AMY-Tree在进行单倍型的数据需要先生成一棵用于进行分类的 AMY 树,AMY 树可以通过计算基因的突变距离来确定,The International Society of Genetic Genealogy (ISOGG) 是一个由志愿者维护的独立的非盈利性质机构,主张使用进化谱系来研究基因学,ISOGG 促进业界的志愿者采用有 NIST 制定并且发布在 the Journal of Genetic Genealogy 上的命名规则,因此从2006年以来,ISOGG 每年都会定期的对 ISOGG Y 染色体进化树进行更新并且接受同行的审查,由于 ISOGG 在业界的权威地位,因此 AMY 树的构建使用 ISOGG 2016发布的 Y 染色体发育树的数据,爬取 ISOGG 的系统演化树并将其保存为下列格式:

名称 替代名 父节点 突变位点
Root Root - -
A00 A-L1086 Root L1086 L1234 L1122 L1087 L1088 L1096 L1097 L1100

该表使用制表符进行分割,第1个字段为节点单倍型的名称,第2个字段为单倍型的替代名,第3个字段为该节点的父节点,后面剩余的字段为的为 Y-SNPs 的突变位点。

导入 Y-SNP Calling 数据

本次研究所使用的的 AMY-Tree 程序及相关文件托管在 Github,仓库地址为:https://github.com/fjkfwz/AMY-Tree。

将 SNP calling 产生的文件切割出 Y 染色体的 SNP 信息并转换为下列的格式:

染色体 位点 参考序列 SNP Call 碱基 dbSNP
chrY 10056145 G A x
chrY 10057061 T G x
chrY 10058354 A G rs35567891
chrY 10082860 T G rs35368665

该表使用制表符进行分割,第1个字段表示 SNP 位置,第2个字段表示 SNP 位点在染色体上的位置,第3个字段为参考序列的碱基,第4个字段为 SNP Call 的碱基,第5个字段为 dbSNP 数据库标示的 SNP 位点名称。

在后面的步骤进行之前需要先确定每个节点的突变状态,0代表和祖先型一致,1代表突变基因型,-1代表其它基因型类型,位点的状态有参考基因组和 CallSNP 基因组来确定,如果参考基因组过期的,导致参考基因组树的等位点状态不足以应对后续的分析,将会进行等位基因状态的检查,检查首先将确定 SNP Call 的质量,通过比对参考序列,通过将把检查的结果分成两个类别,有充足 SNP Call 的数据和不充足 SNP Call 的数据,接下来将要确定发育树每个节点的状态,节点状态测定的好坏取决与 SNP Call 的质量,当样本 SNP Call 的的质量足够好时,所有的 Y-SNPs 位点都将被用于计算 SNPs 的突变百分比,对于质量好的 SNPs 位点有超过85%可能将一个节点标示为真,当测试质量不够好的时候,计算 SNPs 突变率的时候将忽略等位基因所有突变的点,并且间超过5%的可能的突变位点标示为真。

导入突变转换文件

突变转化文件包含了被公开的突变转化的 Y-SNPs 位点信息,文件有制表符进行分割,第1个字段包含了 Y-SNP 位点的名称,第2个字段为 Hg18(NCBI36)的 Y 染色体 SNP 位点的位置,第3个字段为 Hg19 (GRCh37)的 Y 染色体 SNP 位点的位置,第4个字段包含了突变位点的转换(标准碱基 突变碱基),第5个字段为突变位点的类型(包括单核苷酸多态性(SNP),碱基插入缺失(indel)或者 Unknown),第6个字段为该突变是否应该被忽略,SNP 位点突变在任何时候都不应该被忽略,第7个字段包含根据 ISOGG (International Society of Genetic Genealogy) Y 染色体单倍群树可能的单倍群,第8个字段为突变代名词,第9个字段为 dbSNP 参考命名:

名称 Hg18(NCBI36) Hg19 (GRCh37) 转换 类型 忽略 单倍群 代名词 dbSNP
L162 14528466 16019072 G->C SNP no T1a Page21 rs34179999
L164 14211253 15701859 G->A SNP no R1b1a2a1a1a5c1a1a rs13305517
L175 20355469 21896081 CTGT->del indel yes R1a1a1g3a1a
L176.1 20238645 21779257 AAAAC->del Unknown Yes R1a1a1g3a1 S179.1

导入质量控制文件

质量控制文件包含了所有被用于计算 Call 质量分数的 Y-SNPs 位点,文件由分隔符分割,第一个字段为单倍型的名称,其它为确定该单倍型的 SNP 位点。

名称 SNP 位点
A1b V148 V149 V150 V151 V153 V154

参考基因组 SNP 状态

位点 碱基状态
L16 1
L160 0
L166 0

这个文件包含了参考基因组 Hg18或者 Hg19的参考基因组的 SNP 位点的状态,由制表符分割,第1个字段为 Y-SNP 位点的名称,第二个字段为该 SNP 位点的状态信息,0表示与祖先相同,1表示发生突变的位点,-1表示其它碱基状态。

输出的分析文件

输出的分析文件可以分为以下几个部分:(1)Call 质量测试里头的得分,(2)垂直算法返回的结果,水平算法返回的结果,(3)组合算法返回的结果,(4)特定算法的返回结果,(5)由结果所确定的 Y 染色体单倍群。

输出结果
RESULTS——-> R1b1b2a1a1* [R-U106*]

输出的 SNP 状态文件

状态文件为 Y-SNP 突变转换文件给出的位点的状态,0为祖先型,1为突变型,-1为其它,reference 和 call 为突变获取的来源。

SNP 位点 状态 来源
S186 0 reference
P227 1 reference
M405 1 called
S144 0 called
M83 0 reference

数据处理与分析

数据处理原理

F-statistics 遗传距离

在群体遗传学,F 统计(也称为定影指数)描述了一个人口的杂合性的统计学预期水平,相比哈迪-温伯格期望更准确的在杂合的情况下减小的预期程度时。F 统计也可以被用于测量在不同的水平(层次)细分人口的绘制基因之间的相关性。这种种群间的差异性是由进化过程,如突变,迁移,近亲交配,自然选择,或 Wahlund 效应等进化过程影响。

一个等位基因在一个群体中的基因型频率计算为:

F 的求解使用了上述近交群体杂合子的基因型频率:

其中哈迪- 温伯格平衡预期的频率由下式给出,其中其中 p 和 q 分别是 A 的等位基因每个基因频率,也是从两个个人群中随机抽取人群的等位基因频度:

分子方差分析(AMOVA)

分子方差分析是目前被最为广泛应用于群体遗传结构检验的统计学方法,AMOVA 分析巧妙的引入了进化距离(evolutionary distance)用于计算和衡量单倍型(或基因型,下同) 间的差方,从而避开了分子数据不便于直接计算离差方的问题,AMOVA 能根据研究者所设定的分组规则,将总体方差分解为群体内部和群体之间两个大的层次,而群体之间又能更为细分的分为为组间和组内群体问两个层次。AMOVA 分组规则的在每一个层次对随机分靠的零假设进行检验。因此能够将所有种类的单倍型之间的差方组成一个距离矩阵。

在各种假设的结构中,能够使群体内部差异最小而群体间差异中的组间方差最大的分组越能反映真实的群体结构的假设。Iriondo 等通过对西班牙 Basques 地区不同人群的6 个 STR 位点出现频率的多态性使用 ARLEQUIN 进行 AMOVA 分析,研究的结果显示可将班牙 Basques 地区的17 个人群分为3 组。在国内也有相应的研究,薛雅丽等通过对中国26 个人群的 MYS2的微卫星位点出现的频率差异使用 ARLEQUIN 进行 AMOVA 分析,研究的结果显示而且中国的南北人群之间存在一定的差异(4.34%,P<0.01) ,同在中国南方人群间的存在较大的变异(8.11%,P<0.01)。

Nei 标准遗传距离

等位基因的频率数据的计算,可以有许多中以无限等位基因模式以及以同步突变模式为基础的遗传距离计算的方法。Nei 和 Takezaki 在1996提出了通过计算机计算来模拟比较了适合无限等位基因模式的 Nei 遗传距离的方法,Shriver 等人在1995年提出了适合同步突变模式的的 DSW 距离。不少遗传学的研究这对这几种遗传距离结果的技术进行了比对,比对的结果显示在这些遗传距离不论是否考虑到品种形成过程的瓶颈效应的请款下构建系统发生树的精确性方面,Cavalli-Sforza 和 Edwards1967年提出的余弦距离 DC 和 Nei 等人在1983年提出的 DA 遗传距离的结果均要好于其他计算遗传距离的方法,但对于系统分化时间的估算,Nei 在1972提出的标准遗传距离 DS 的计算方法则更加的合适。

Nei 标准距离本质上就是一种欧氏空间距离,Nei’s 在论述近缘生物的系统发育时,建立了标准遗传距离与两群体分化时间的线性关系,如果基因变化的比率是每年相同那么 Nei 距离就可以很好的用来预测两个群体分化的距离,亦即:

这里的 D 表示为标准的遗传距离,X 为每个等位基因的替换频率,这一个数值也可以用算数平方根来表示。
Y 表示X群体两个随机选出的两个群体基因特定基因座上有相同等位基因概率的平均数。
X 表示Y群体两个随机选出的两个群体基因特定基因座上有相同等位基因概率的平均数。
XY 表示X,Y两个群体中所有基因座上有相同等位基因概率的平均数。

主成分分析

主成分分析(Principal components analysis,PCA)是最简单的以特征量分析多元统计分布的方法,广泛的应用与在多元统计分析当中中。主成分分析能够在同时保持数据集中的对方差贡献最大的特征的情况下有效的降低数据集的维数。PCA 能够将一个在高维数据空间坐标系中表示的多元数据集映射成为纬度较低的图像,从而只使用少量纬度达到降低多元数据的维度的效果。

主成分分析在人类群体遗传学中也有着较为广泛的运用,2005年薛付忠等人对中国人群的遗传结构运用了协方差阵主成分分析方法进行分析,比较了26个汉族人群的 HLA-A 基因座中心化协方差阵和标准化相关阵2种主成分分析结果,结果表明中心化协方差阵主成分分析方法在特征根与特征向量、保留主成分的个数和对主成分的群体遗传学解释的合理性等方面均优于标准化相关阵主成分分析方法。

系统发生树

系统发生树是用于描述群体发生和进化关系的拓扑结构,系统发生树能够用于直观地描述人类起源和群体演化的关系而且能够有效的追溯人类起源。对于单倍型频率数据在 MEGA 中对群体遗传进行左图首先要获得基于单倍群频率的遗传距离矩阵,然后查能够根据不同算法绘制出相应的系统发生树。

比较常用的用于绘制系统发生树的数据是群体的 D 或者 Fst 遗传距离,D 在小样本数据的情况下也能够有很好的结果,D 距离在不同进化条件下获取系统发生树的最有效的方法; Fst 距离在不考虑基因的突变模型的情况下,能够很好地揭示了群体间分化水平。用于绘制系统发生树的算法有 Neighbor-Joining 法及 UPGMA 法,UPGMA 法只能够适用于所有人群的进化速率相同的场景,而 Neighbor-Joining 法则可以适用于各种不同情形。Ruiz-Linares 等人认为如果假设群体间存在着基因交流,使用 Neighbor-Joining 法构建出的系统发生树要比 UPGMA 法建出的系统发生树所受的影响要更少。

数据处理方法

地理频率统计

将获取到的每个样本单倍型按照以省份为单位统计每个省份单倍型出现的频率,调用百度地图的 API 获取每一个省份的地理位置坐标信息,将频率数据按照经度和纬度进行排列,用 Python 的 Matplotlib 绘图库对单倍型的地理位置分布进行绘制,Matplotlib 是 Python 最著名的绘图库,它提供了一整套和 Matlab 相似的命令 API,十分适合交互式地进行制图。绘制出的频率图如下,中间的点阵图为单倍型在空间中的位置分布,不同颜色的圆点代表不同的单倍型,圆点的大小代表单倍型出现的频度;上边的柱状图为不同单倍型随着经度由西经向东京的分布频率;右边的柱状图为不同单倍型随着纬度由低纬向高纬度的分布频率。

图4.2.1 单倍型地理频率图示例

地图等位线图

地图等位线图由自己编写的基于 Matplotlib 的 Python 库绘制而成,代码托管在 Github,项目仓库为:https://github.com/fjkfwz/geoplotlib,首先对每一个省份的样本量进行归一化使得每个省份的样本总量一直,调用百度地图 API 获取每个点的地理位置信息,将地理坐标转化为图上的点后,进行等高线的绘制,绘制出的频率图如下,颜色越深代表该地区单倍型出现的频率越高。

#

图4.2.2 单倍型地理等高图示例

遗传距离的估计

Fst 值和 AMOVA (分子差异度分析)均使用 ARLEQUIN 进行统一计算,ARLEQUIN 是一款优秀的用于人类遗传学数据分析软件,ARLEQUIN 的软件包提供了许多用于挖掘遗传学和人口统计学数据的许多方法和统计学检验来,输入的文件为每个群体的单倍型频率,AMOVA 经过3000次随机排列(permutation)的差异成分(variance component)的显著性进行检验,AMOVA 的值为0说明这两个群体之间没有遗传差异,负数则为种间差异要小于种内,在绘图时将种间差异为负数的值转化为设为群体之间没有遗传差异(即为0)。绘图使用 R 的绘图库 ggplot2进行绘制,输入文件和绘图代码托管在 Github,项目地址为:https://github.com/fjkfwz/arlecore-linux。

图4.2.3 左图为 AMOVA 的计算结果,右图为 Fst 的分析结果

图4.2.3左为种群差异的平均值,蓝色表示 Nei 遗传距离,颜色越深表示两个群体的遗传差异越大;橘红色表示种群内的遗传差异,颜色越深表示种群内的遗传距离越大;绿色表示种群间的遗传距离,颜色越深表示种群间的遗传距离越大。图2右为 Fst 矩阵,颜色越深通常表示遗传差异越大。

系统发生树

系统发生树使用 MEGA 进行绘制,MEGA 提供一个以进化的角度从 DNA 和蛋白序列中提取有用的信息的工具,导入数据文件为 Arlequin 生成的 Fst 距离矩阵,选择绘制无根毗邻系统发生树即可,输入文件和绘图代码托管在 Github,项目地址为:https://github.com/fjkfwz/megacc。

主成分分析

对单倍群的频率做组成份分析,在计算中做最大方差旋转,以进一步提取单倍型的信息,做组成分分析所用的工具是 R 语言的 ade4包,ade4是由法国 lyon1大学的几位学者开发,主要应用于生态学领域,这里导入的数据为单倍型的频率数据。

结果与讨论

通过上面的流程,我们可以从采集到的样本中分析得到样本的染色体单倍群信息,本项研究中中,通过对中国大陆各个地区省区市,覆盖多个民族,涵盖多个不同遗传距离的单倍群的564个中国人群 Y 染色体样本,基本可以覆盖了大部分中国人群的遗传数据,研究所用的所有数据均经过 WeGene 生命伦理委员会的审查,旨在规范伦理审查工作,确保基因检测的科学性,同时保障检测者的隐私、安全和权益。WeGene 生命伦理委员会实行专人负责制,第一届生命伦理委员会的委员有刘韧、张琨和张大可,分别是媒体、医疗和科研等方面的专家。

染色体单倍群的分布频率

由下图表5.1.1的中国人群 Y 染色体频率分布统计图可以看出,单倍群 O-M175是在中国分布的频率最高,随后是单倍群 N-M231,单倍群 C-M130和单倍群 Q-M242,这4个单倍群是是中国分布最为广泛的四个单倍群,这四个中国主要的单倍群占到了中国全部男性的94.9%。而其余的单倍群 G-M201,J-P209,L-M20,D-M174和 R-M207等仅占到中国男性的5.1%。

表5.1.1 中国人群 Y 染色体的频率分布

按照地理位置以秦岭-淮河线为界,可以将中国分为南方和北方。从单倍群的分布频率表中可以看出,无论是中国北方还是中国南方最常见的单倍群都是 O-M175。在 O-M175中,O2-M122是中国分布最为广泛的单倍群,其中单倍群 O2-M122下游的亚单倍群 O2a2b1a1-M117,O2a2b1*-M134以及 O2a1c-002611三支又是单倍群 O2-M122分布频率最高的3个亚单倍群,这3个亚单倍群总和占据了整个中国人群的45%左右。

对比中国南北人群的单倍型频率不难发现单倍群 N-M231,D-M174,Q-M242和 O3-M122在中国南北方人群之间的频率并不存在显著的差异,与此相反的是单倍群 C-M130,R-M201,Ola-M119和 O1b-M95的频率则在南北人群间存在着明显的差别,其中南方人群单倍群中的 O1b-M95和 Ola-M119的出现的频率要远高于北方,而北方的中出现频率较高的单倍群 C-M130、R-M201,在南方则以较低的频率出现,这说明了中国南北人群具有同源性但在不同的地区又有些许的区别。

考虑到的单倍群 O2a2b1a1-M117,O2a2b1*-M134、O2a1c-00261以及 N-M231,O1*-F265这两大单倍群组成的五大支在中国人群中高频且相对均匀分布,可以推测出这五大支系应该属于5000-2000年前定住在黄河流域的华夏民族较早期的的组成成分。尽管这几大单倍群支系很有可能并不是在同一个时期同时同地扩张的,但是可以确定的是在汉族第一次大规模的向南迁徙之前,这五大支系就已经混合的相对比较均匀了。

单倍群 O单倍群 O-M175在中国分布频率最高的单倍群占据着超过75%的中国人口和50%的日本人口,同时单倍群 O-M175在东南亚地区的岛屿上和大洋洲的玻利尼西亚地区也有着比较高的分布频率,而相反在中亚和大洋州等其它地区则以非常低的频率存在,这说明单倍群 O-M175很有可能是在现代人种从非洲迁徙到达中国或者东南亚地区之后出现的,因此可以认为单倍群 O-M175代表这的是古代的蒙古利亚人种。

图5.1.1 中国 Y 染色体单倍群 O 的分布情况

单倍群 O1aO1a-M119 (尤其是其下的 O1a1a1-P203支)在南方的比例(15.9%)要明显的比北方(5.2%)的高许多。O1a-M119在中国南部地区的台湾原住民、东南沿海和东南部侗傣族群中都有集中的分布。复旦大学的 Wang 等人对4000多年前长江三角洲的良渚文化遗留化石的古 DNA 进行测定,结果表明在良渚文化发达的时期,人群中单倍群 O1a 的频率就已经出现了很高比例的出现,因此有理由认为中国南北人群中很大的一部分单倍群 O1的群体是来自来自古代的百越民族。不过比较奇怪的是北方汉族尤其在中国西部的部分少数民族例如羌族、回族以及中国北部地区的一些原住民群体中 O1也有5.2%频率出现,因此如果完全的将单倍群 O1的来源完全归结为越人显然是不合理的。Su 等人在1998年测定了1086个个体的 STR 类型并推测出这些个体的单倍型类型,结果显示亚单倍群 O1b1a1a-M95下游的 O1b1a1a1a1a-M88和亚单倍群 O1a-M119下游的 O1a2-M110这两个单倍群只存在与在南方人群之中,因此推测这两个谱系可能起源于南方。

图5.1.1.1 中国 Y 染色体单倍群 O1a 的分布情况

单倍群 O1b单倍群 O1b-M268在中国南方的比例为3.5%,在中国北方的比例为2.6%,相对比较来说南方人群中的单倍型 O1b 的比例要相对更高一些,单倍群 O1b 主要的下游支系为 O1b2-M176、O1b*-M268、O1b1a1-PK4(下含 O1b1a1a-M95)和 O1b2-M176。从分布频率表上来看,在全国相对是比较均匀的,其中单倍群 O1b-M268下游的 O1b1a1-PK4在南方人群中出现的频率相比较北方人群来看,出现的频率要多出1.0%。亚单倍群 O1b1a1a-M95是 O1b 下的主要的支系,主要分布在印度门哒人群、中南半岛以及南方的原住民族这部分的地区之中。单倍群 O1b 下的另一支系 O1b2-M176,在朝鲜半岛、日本的弥生人当中有着较为集中的分布,另外在中国南部地区的汉族和越南人群中也有低频率的分布。

考虑到亚单倍群 O1b1a1主要分布于南方的壮侗、苗瑶等原住民族当中,这说明了出中国南方汉族中相对较高频率的的亚单倍群 O1b1a1可能是从这些中国及东南亚少数民族中融入的。但是在各处的汉族人群和一些北方的少数民族也有普遍低频的单倍群 O1b1a1存在,因此可以推测亚单倍群 O1b1a1很有可能是在早期汉族的形成过程中就融入的。

图5.1.1.2 中国人群 Y 染色体单倍群 O1b 的分布情况

单倍群 O2

单倍群 O2-M122是中国分布频率最高的支系,可以将大约60%的中国地区男性可以归属到该单倍群下,O2-M122在南方人群中所占的比例为61.4%,在南方人群中所占的比例为57%,可以看出单倍群 O2-M122在中国人群中的分布并没有太大的差别,其中亚单倍群 O2a2b1-M134、O2a1c-002611和 O2a2b1a1-M117是单倍群 O2-M122下游三个主要的支系,这三个支系在中国汉族人群中分布的频率分别大约在12-17%左右。单倍群 O 下的另一支系 O2a2a1a2-M7在中国南方和东南亚的苗瑶和孟高棉人群中出现的频率较高,而相反该亚支系在汉族中却不足5%,而 O2a2b1a1-M117则主要分布于藏缅族群当中。

图5.1.1.3 中国人群 Y 染色体单倍群 O2的分布情况、

宿兵等人1998年对大范围的亚洲人群样本做了遗传结构研究,主要对三个与父系遗传有关 STR 位点和用于包括对 M95、M119和 M122等在内确定 Y 染色体类型的19个 Y 染色体 SNP 位点进行了检测。宿兵等人对这些人群样本的结果做了聚类分析,从聚类图上可以看到北方人被包含在南方人群的聚类簇内群紧密聚在一起,这说明南方人群的相比较比北方人群来说具有更高的人种多样性,因此可以认为来自于旧石器时代定居在南方的南方人群是北方人群的主要来源 。

图5.1.1.4 中国人群 Y 染色体单倍群 O2a2b1的分布情况

单倍群 C从统计的结果可以看出中国的单倍群 C 基本上都属亚单倍群 C3,单倍群 C 在南方的频率为4.9%,而在北方的频率为14.5%,虽然单倍群 C 在中国南方的频率比中国北方人群中的频率要更低一些,但是相比较北方却具有更高的复杂性。单倍群 C 和单倍群 D 一样,根据每150年发生一个可遗传的变异都可以推测出单倍群 C 大概是在6~3万年前抵达中国的单倍群类型。其中亚单倍群 C3在北方尤其在东北一带出现的比例相比南方要明显更高一些。

图5.1.2 中国人群 Y 染色体单倍群 C 的分布情况

单倍群 D单倍群 D 在中国人群中很低频率的出现,单倍群 D 在南方人群中的比例为1.7%,在北方人群中的比例为1.0%。单倍群 D 在中国的分布具有非常强烈的群体特异性。单倍群 D 在东北大陆(如俄罗斯的埃文基人)几乎不存在,在中国东北地区也非常罕见。但是在蒙古族的各组样本中均有低频的存在,在0%-6%之间,同时单倍群 D 普遍存在于苗瑶的各个支系中(0%-10%),在某些支系中 D1超过50%,汉族中 D 的比例较少,在0%~5%之间。在靠近藏区的甘肃、四川则会达到较高的10%的比例。日本有35%的 D 型,都属 D2-M55。D2- M55几乎局限在日本和朝鲜半岛,这表明它是 D*迁徙到这一地区之后才产生的。

D2- M55在日本人群中分布的比例从南至北呈现出 U 字型分布的规律,即在在关西至九州的日本的中部地区附近的频率最低,而在日本岛的南北两端的北海道的阿努伊人和琉球居民中则有较高比例的分布。这个型代表了日本旧石器时期的早期居民——绳文人 。目前,复旦大学的汉族样本数据库中和本次所调查的人群中暂时没出现一例单倍群 D2,这说明了在历史上并不存在日本父系混入汉族的情况。

图5.1.3 中国人群 Y 染色体单倍群 D 的分布情况

Tha ngara 等人在2003年的对印度东南方的安达曼人群遗传结构进行了调查,研究结果显示有单倍群 D 的原始类型 D+在安达曼人的 Y 染色体单倍型的比例为62%,单倍型 D+在安达曼人的的两个部落 O nge 和 Jarawa 频率几乎接近100%。这说明了单倍群 C-M130和 D-M174是在在现代人种从非洲走出后后围绕着印度洋沿岸进入南亚的途中突变产生的,随后 C-M130和 D-M174的现代人经由东南亚最终抵达了中国地区 。
单倍群 N单倍群 N 在中国人群中的频率为7.2%,从频率表中可以看出南北人群中在这个单倍群的差异不大,其中单倍群 N 在南方人群中的比例为7.0%,在北方人群中的比例为7.8%。单倍群 N-M231在中国的人群中分布频率最高的下游单倍群 N1c-L729.1,按照 SNP 位点突变率计算其产生时间可以追溯到在1.4万年前,最早可能出现中国西部地区,研究表明单倍群 N-M231在从中国西部扩散到北欧和东欧的过程中曾经在西伯利亚经历了多次瓶颈效应。单倍群 N-M231的下游分支 N1b-P43在萨莫耶德人等中亚中北部地区有着较为广泛分布,因此推测其可能在6-8千年前起源的北部的西伯利亚地区。单倍群 N-M231的下游分支 N1a-M128则在鄂温克族、满族、朝鲜族锡和伯族等一些中国北部的群体、中亚的东部的部分突厥语的族群中和一小部分阿尔泰人群和乌拉尔人群中当中有着低频到中频的分布。

图5.1.4 中国人群 Y 染色体单倍群 N 的分布情况

单倍群 R单倍群 N 属于北方种群,单倍群 N 在南方人群中的比例为0.9%,在北方人群中的比例为4.2%。中国大陆分布的单倍群 R 主要为 R1a-M17,本次调查到的单倍群 R 样本中有9例为单倍群 Q 的一个亚分支 R1a-M17,2例为 R1b-M343,且在个民族之间均匀分布,R1-M17起源于伊朗-中亚高原并分布于印度北部、中亚和东欧。俄罗斯(国别尔哥罗德)为59.4%,波兰55.9%,51%的普什图人,在印度北部的48.9%,在阿尔泰人的46.9%,塔吉克如人44.7%。单倍型 R(M207)和单倍型 O 一起构成了世界上人数最多的两大人群。

据资料显示外蒙古古代组 R 比例12-13%,蒙古崛起后,随着 C 比例高速攀升超过 O 跃居第一大父系群后,O/Q/N/R 等比例都相应降低,根据单倍型 R 在大陆的分布显示单倍型 R 主要分布在中国的北部地区靠近蒙古一带,因此汉族中的单倍型 R 可能是有北部的游牧民族或者匈奴、突厥等少数民族中混入的。

图5.1.6 中国人群 Y 染色体单倍群 R 的分布情况

R 基因距今约30000年前在伊朗-中亚高原诞生之后,一小部分向南侵入印度,战败了土著的达罗毗荼人,然后作为白皮肤的雅利安人用种姓制度统治了印度数千年
。更多的 R 基因人群则向西北寻找食物更加丰富的猎场,他们占领了广袤的东欧平原,进而进入西欧。如果继续细分的话,R 基因可以进一步分为 R1a 和 R1b。R1a 主要分布在东欧、印度北部和中亚。其中东欧斯拉夫民族,如俄罗斯族,差不多能占到一半的比例。在中国西北地区单倍型 R 多数为 R1-M17,少部分为 R1b-M343,从语言学分类上看,吐火罗语与东伊朗语/塞语分属西部 Centum/东部 Satem 语,即说明 R1b 与吐火罗,R1a 与东伊朗的相关性表明 R1b 应是更早来到西域定居的这一批,而 R1a 是大约公元前1500年才来到新疆及中亚。
单倍群 Q单倍群 Q-M242在南北人群中的差异不大,单倍群 M242在南方人群中的比例为4.0%,是中国的第四大的单倍群类型,单倍群 Q-M242在北方人群中的比例为4.7%。本次调查到的单倍群 Q-M242样本均为单倍群 Q-M242的一个亚分支 Q1a1-M120,该亚分支几乎是汉族所独有,21例单倍群 Q-M242的样本中,有20例均为亚分支 Q1a1-M120,其中汉族的比例高达17例,其它的包括1例朝鲜族,2例回族,仅有1例裕固族的样本为亚分支 Q1a3-M346,其他地方发现的 Q1a1也很有可能是从汉族人群中混入的,从数据可以看出 Q1a1-M120在汉族中分布相对很均匀,南北汉族间并不存在太大的偏差。

图5.1.5 中国人群 Y 染色体单倍群 Q 的分布情况

Y 染色体单倍群频率与地理位置的关系

中国地区的地广物博,自然环境和地理位置具有相当程度的复杂性,与此同时,中国又是世界上人口最为密集的地区之一,因此不同地域的人群所居住环境状况,包括植被类型、地形地貌、干湿气候等各个方面都会存在比较大的差异。因此,考察不同地域的人群在遗传上的异同是研究中国人群遗传结构首先应该回答的问题。例如:不同地区的人群遗传结构是怎么养的,不同地区的人群之间的遗传差异有多大,地理距离的远近时候对应这这些地域人群的遗传差异,如果地理差异和变异遗传之间存在着关联关系,那么又应该要如何解释这种关联的意义。

根据原始数据按照省份和地区计算每个省份单倍群的分布频率并整理成表5.2.1,并根据表5.2.1绘制 Y 染色体单倍群地理位置分布图,中间的点阵图为单倍型在空间中的位置分布,不同颜色的圆点代表不同的单倍型,圆点的大小代表单倍型出现的频度;上边的柱状图为不同单倍型随着经度由西经向东京的分布频率;右边的柱状图为不同单倍型随着纬度由低纬向高纬度的分布频率。

表5.2.1 不同省份 Y 染色体单倍群分布比例

地区 省份 总量 O C N Q R D H E G J
东北地区 吉林 6 83.33 0.00 0.00 16.66 0.00 0.00 0.00 0.00 0.00 0.00
黑龙江 4 50.00 50.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
辽宁 18 55.55 38.88 5.55 0.00 0.00 0.00 0.00 0.00 0.00 0.00
总计 28 60.71 32.14 3.57 3.57 0.00 0.00 0.00 0.00 0.00 0.00
华北地区 内蒙古 8 62.50 12.50 12.50 16.66 0.00 0.00 0.00 0.00 0.00 0.00
山东 49 73.46 16.32 4.08 2.04 2.04 0.00 2.04 0.00 0.00 0.00
天津 6 66.66 16.66 16.66 0.00 0.00 0.00 0.00 0.00 0.00 0.00
陕西 13 61.53 23.07 0.00 7.69 0.00 0.00 0.00 7.69 0.00 0.00
北京 8 62.50 25.00 12.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00
河北 21 52.38 0.00 19.04 14.28 9.52 0.00 4.76 0.00 0.00 0.00
山西 16 68.75 12.50 12.50 6.25 0.00 0.00 0.00 0.00 0.00 0.00
总计 119 66.38 14.28 8.4 5.88 2.52 0.00 1.68 0.84 0.00 0.00
华东地区 上海 21 80.95 9.52 9.52 0.00 0.00 0.00 0.00 0.00 0.00 0.00
江西 16 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
福建 17 70.58 0.00 23.52 0.00 5.88 0.00 0.00 0.00 0.00 0.00
江苏 73 78.08 8.21 9.58 0.00 1.36 1.36 0.00 1.36 0.00 0.00
安徽 36 75.00 2.77 5.55 11.11 0.00 5.55 0.00 0.00 0.00 0.00
浙江 53 84.90 9.43 1.88 1.88 0.00 0.00 1.88 0.00 0.00 0.00
总计 216 80.55 6.48 7.40 2.31 0.92 1.38 0.46 0.46 0.00 0.00
华中地区 广西 8 87.50 0.00 0.00 0.00 0.00 12.50 0.00 0.00 0.00 0.00
湖北 1 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
广东 22 81.81 0.00 9.09 9.09 0.00 0.00 0.00 0.00 0.00 0.00
河南 23 78.26 4.34 13.04 0.00 0.00 4.34 0.00 0.00 0.00 0.00
湖南 18 72.22 0.00 5.55 16.66 0.00 5.55 0.00 0.00 0.00 0.00
陕西 1 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
海南 11 90.90 0.00 9.09 0.00 0.00 0.00 0.00 0.00 0.00 0.00
湖北 21 90.47 0.00 4.76 4.76 0.00 0.00 0.00 0.00 0.00 0.00
总计 107 82.24 0.93 8.41 5.60 0.00 2.80 0.00 0.00 0.00 0.00
西北地区 青海 1 0.00 0.00 0.00 0.00 100.00 0.00 0.00 0.00 0.00 0.00
甘肃 12 66.66 0.00 0.00 8.33 16.66 8.33 0.00 0.00 0.00 0.00
宁夏 3 33.33 0.00 0.00 0.00 33.33 0.00 0.00 0.00 33.33 0.00
新疆 3 0.00 33.33 0.00 0.00 33.33 0.00 0.00 0.00 0.00 33.33
总计 19 47.36 5.26 0.00 5.26 26.31 5.26 0.00 0.00 5.26 5.26
西南地区 云南 9 66.66 11.11 11.11 11.11 0.00 0.00 0.00 0.00 0.00 0.00
重庆 11 72.72 0.00 9.09 0.00 9.09 9.09 0.00 0.00 0.00 0.00
贵州 2 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
四川 29 82.75 6.89 3.44 6.89 0.00 0.00 0.00 0.00 0.00 0.00
总计 51 78.43 5.88 5.88 5.88 1.96 1.96 0.00 0.00 0.00 0.00

Y 染色体单倍群地理位置分布

图5.2.1 Y 染色体单倍群在地理位置上的分布(上为单倍群沿纬度分布的频率图,右为单倍群沿纬度分布的频率图,中为单倍群沿地理位置分布的频率图,点的大小代表出现的频率)

图5.2.2 按照纬度排序的不同省份 Y 染色体单倍群的频率图

图5.2.3 按照经度排序的不同省份 Y 染色体单倍群的频率图

表5.2.2 根据不同地区人群单倍型频计算的的 Fst 值

地区 1 2 3 4 5 6
1.东北地区 0.00000
2.华北地区 0.01420 0.00000
3.华东地区 0.11248 0.02711 0.00000
4.华中地区 0.15317 0.04144 0.00033 0.00000
5.西北地区 0.08459 0.06891 0.18314 0.19555 0.00000
6.西南地区 0.08158 0.00949 -0.00909 -0.00709 0.12207 0.00000

图5.2.4 不同地区人群的差异矩阵,左图为根据不同省份人群单倍型频率

计算的的 AMOVA 差异矩阵,右图为根据不同省份人群单倍型频率计算的的 Fst 的矩阵

图5.2.5 图为根据不同地区人群 Fst 遗传距离绘制的无根毗邻系统发生树(The optimal tree with the sum of branch length = 0.11011500 is shown. The evolutionary distances were provided by the user. Evolutionary analyses were conducted in MEGA7)

图5.2.6 根据不同省份人群单倍型频率计算的的 AWOAS 差异矩阵

图5.2.7 根据不同省份人群单倍型频率计算的的 Fst 差异矩阵

综合 AMOVA 分子差异度热图和 Fst 矩阵热图,可以看出北方的各个民族的之间的种内差异的相比南方民族要更大一些,但北方的种间的差异却要比南方来的小,这是因为因为北方地区主要是平原,地理隔离少,黄河冬天封冻,可以自由行走,在加之近五千年来由战乱、灾荒所引起的大规模人口迁移,且迁移频繁,所以北方各地汉族人群在遗传结构上也更多的混入了其它少数民族的父系基因;而在长江以南地区,南方原住民族的父系基因开始增加而北方的父系基因逐渐的减少,相比北方,南方的种内差异比较小,但是种间差异却比北方要大,这是因为南方山多,河流多,地理隔离要比北方严格得多,同时由于战乱与灾荒引起的大规模的人口迁移也比北方少。

表5.2.3 根据不同省份人群单倍型频率计算的的主成分值

省份 主成分1 主成分2 主成分3 主成分4 主成分5 主成分6 主成分7
河北 -1.36010 -3.61561 -3.52408 0.93147 -0.06063 -0.19479 0.44442
湖北 4.97018 -0.02723 -1.94044 0.48898 -0.61665 1.45672 1.09554
甘肃 4.13510 1.21591 -1.87962 -0.16462 2.97397 -2.06326 -1.58104
河南 -1.02073 0.75914 -0.92244 1.64580 -0.98917 -0.12436 -0.19053
青海 0.14868 1.75784 -0.77848 1.32546 -0.72765 1.05379 0.01503
福建 -0.64012 -0.70779 -0.71884 -1.54670 -0.62999 -0.48139 -1.58121
云南 -0.25474 1.65369 -0.61374 -0.08285 -0.76694 1.28184 -1.15315
安徽 -1.17452 0.60749 -0.56002 0.97658 -0.14207 0.73449 -0.37490
内蒙古 -0.44245 -0.90964 -0.44984 0.78210 -1.49967 -1.31071 -0.25868
湖北 -0.95309 -0.00556 -0.38465 0.12181 -0.14929 -0.72870 0.05928
吉林 -0.60854 0.57846 -0.33131 1.43165 -0.59908 -1.45870 1.22288
浙江 -1.21376 -1.05067 -0.23218 -0.22538 1.90318 1.10220 1.07444
山东 -0.80980 -1.60194 -0.21547 -0.29722 1.50420 1.16861 0.83635
广东 -0.78164 0.45909 -0.17495 -0.78004 -0.24196 0.59115 -1.07716
新疆 -0.30992 -0.57999 -0.16878 0.22101 -1.05101 -0.99577 -0.17903
四川 -1.10939 -0.07572 -0.06237 0.04471 0.84020 0.86415 -0.10582
海南 -0.79284 0.51157 0.05177 -0.18965 0.33033 -0.50453 0.50367
山西 -0.33697 -0.64374 0.06180 -0.42218 -0.64332 -0.54372 -0.43082
陕西 -0.59081 0.52999 0.11902 -0.94566 0.05566 -0.62849 0.04428
贵州 -0.68209 0.08320 0.23156 0.08941 0.37428 -0.20216 0.55099
天津 0.06146 -0.74639 0.36443 -1.36400 -0.91143 -0.50558 -0.92655
上海 -0.40774 -0.09096 0.42008 -1.00940 0.13375 -0.12959 -0.15813
江西 -0.53994 1.13517 0.53850 -0.53126 0.73386 -0.37463 1.01553
重庆 -0.26368 1.33243 0.56328 -0.52828 0.28954 -0.79262 1.09905
广西 -0.24395 1.34652 0.56505 -0.52806 0.25780 -0.82247 1.10502
湖南 -0.24395 1.34652 0.56505 -0.52806 0.25780 -0.82247 1.10502
江苏 -1.36544 -0.77740 0.61329 -0.25064 1.91656 1.64266 -0.99069
宁夏 3.58879 -1.16665 0.68314 -0.15541 -0.97900 1.01419 0.49883
北京 0.42951 -0.85770 0.85402 -1.21113 -0.79819 -0.21831 -0.56380
辽宁 0.91209 -1.13571 1.65789 -0.95663 -0.39687 0.45976 0.00264
黑龙江 1.73192 -1.04914 2.34029 -0.74907 -0.77469 0.34529 0.58605
陕西 0.74019 -1.24004 3.46983 3.87746 0.94839 -0.54119 -1.10532

表5.2.4 不同主成分的对总体影响的贡献率

主成分1 主成分2 主成分3 主成分5 主成分6 主成分7 主成分8
贡献率 22.40971 15.40821 14.08839 10.87486 9.580370 9.020708 6.754463

图5.2.8 根据不同省份人群单倍型频率计算的的主成分1和主成分2绘制的差异图

图5.2.9 根据南北群单倍型频率计算的的主成分1和主成分2绘制的差异图

从主成分分析的贡献率表中,可以看到主成分1的贡献率为22.40971,将组成分1按照从小到大排序,可以发现主成分1具有从南至北排布的规律,在长江一带具有较大的跨度,第1主成分反映了南北人群间的基因流动,对比南北人群间单倍型的频率的趋势,可以发现主成分1与 M119和 M95的频率显著正相关,与 M89和 M45的频率显著负相关,这说明 M119和 M95在南方的高频以及后者在北方的高频率是将南北人群的分开的主要原因。

主成分2的贡献率为15.40821,将组成分2按照从小到大排序,可以发现主成分2具有从西向东排布的规律,第2主成分反映了东西人群间的基因流动,主成分2与单倍群 C、D、G 的频率呈正相关,而与 B、F 的频率与其负相关,这说明了这些单倍群的频率差别导致了东西人群的分化。

图5.2.10 根据不同省份人群单倍型频率计算的的 Fst 距离绘制的无根毗邻系统发生树 . The optimal tree with the sum of branch length = 0.11011500 is shown. The evolutionary distances were provided by the user. Evolutionary analyses were conducted in MEGA7GeneTitan MC.

通过计算每个省份群体的遗传距离,绘制出不同省份的遗传差异 Neighbor-Joining 树,从图中可以看出人群之问的遗传差异与地理距离是具有出强烈的相关性的,其中地理位置越接近的省份,它们在遗传图谱上的表现出的遗传距离也越接近,同时可以看出遗传距离大致和地理位置一样是连续的而不存在种群间出现断层的情况,这说明不同的单倍群在中国地区的迁徙是一个随着地理位置逐渐减弱的连续的扩散过程,结合地理位置和遗传距离之间的关系,我们可以看出不同省份的人群间的遗传距离具有显著的由北向南的梯度变化的趋势。

东南地区遗传结构

复旦大学的 LiHui 等人调查了东南亚和中国周边地区的原住族群的遗传结构。基于单倍群 O2a2a1a2-M7绘制出了分层扩散结构的 STR 网络结构图,网络图显示分布在最外围的是汉藏语系的人群,位于网络结构的中心位置的是南亚语系下的孟高棉族群所在单倍群类型,而苗瑶族相对孟高棉族群来说处于更外圈。因此复旦大学的 LiHui 等人推测形成这样分层结构的原因很有可能是因为早期现代人从东南亚进入中国地区的迁徙速率是非常缓慢均匀的,同时也推测中国的 Y 染色体谱系大部分起源于南方 。

将遗传图谱以南方做为树的根节点可以看出随着纬度的不断增加各地区人群的遗传差异也在增加。考虑地理位置等因素后后,可以推测其中海南岛原住民黎族可能是最早分化出的类群,语言学也表明海南岛原住民黎族也有着最原始的语言文化和遗传特征。而海南岛也处于中国的南方东线入口处,通过此处的早期移民过程影响了大多数中国人群的 Y 染色体多样性。复旦大学的 LiHui 等人为了探索海南岛隔离的遗传结构以及中国南方入口处的原初遗传结构,对海南岛所有6个原住民群体的405名男性个体进行了 Y 染色体多样性研究,结果表明这些群体的主要单倍群是 O1a1a* 和 O1b1a*,而这些群体几乎未受到大陆人群回迁与基因交流的影响 。

东北地区遗传结构

而在遗传距离 Neighbor-Joining 树的另一端,是东北地区和华北地区,从 AMOVA 差异图和主成分分析图可以看出,可以他们与南方群体的遗传结构具有显著的差异,北方人群中间的遗传差异相比南方的人群遗传差异要更大,中国北方的主要民族为西伯利亚的民族,中国北方包括西伯利亚的民族,其语言分为乌拉尔语系、叶尼塞语系、阿尔泰语系和古西伯利亚语系4个类群。乌拉尔语系人群的主流 Y 染色体单倍群是 N1-TAT。N 起源于汉藏族群,在汉族中有 N1和 N2的各种亚型,藏缅族群中的 N 主要是 N2,而乌拉尔的 N1-TAT 只是一种下游的类型。所以乌拉尔族群的父系来自中国中西部是毫无疑问的。

西北地区遗传结构

从组成份分析图中可以看出,中国大部分地域都具有相似的群体遗传结构,但是从 PCA 图上可以看出相比较东部遗传结构相对均衡的汉族人群来说西北地区人群的遗传差异还是相差比较大的,无论是种间差异还是种内个体的遗传差异都存在着比较大的区别,中国西北地区是欧亚大陆东西方交流的最前沿,来自中国、西亚、南亚、北亚甚至欧洲的人群在这里混合交融。

从表5.1.1可以看出,四种中国南方起源单倍群 C、D、O、N 依旧是西北地区人群的主要单倍群类型,这4中来自中国南方的单倍型频率占57.88%的该地区群体所有 Y 染色体单倍群频率,这说明西北地区现代人的主体成分也是经由南线进入中国来到西北的,其他来源与中亚和北方的单倍群类型 Q,R,H,E,G,J 占该地区群体所有 Y 染色体单倍群频率的比例为42.12%,而单倍群 Q,R,H,E,G,J 等这些中国西部特异的单倍群类型在中国西北地区人群中的分布则可以反映出西部的欧亚大陆与这些西北地区群体的基因交流历史,从单倍群频率的分布谱中可以看出这一部分的西方特征谱系的频率自西向东呈现除了逐级递减的趋势。

要解释如今西北地区人类遗传机构呈现出多元化的局面,就不得不提到西北地区周边的复杂的遗传结构,西北地区东边蒙古族有着高频单倍群 C,占到了这些东北部族群基因型20%以上,因此对于中国西北部地区群体中的单倍群 C 的主要来源可以推测是由于东边蒙古族的扩张混入的;藏族地区的人群中有高发频率的着单倍群 D,单倍群 D 在藏区人群中的频率占到了全部藏区人口频率的10%以上,因此中国西北部地区的高发的单倍群 D 频率应该是与藏族地区人群进行交流的时候混入的,西北地区的群体中主要的单倍群 O 应该是起源与而中国东部的汉藏地区的单倍群 O,单倍群 N 发生于西伯利亚南部在从中国西南地区一路逆时针迁徙到北欧地区时,途径西北地区的时候也在这些西北群体中遗留下了痕迹。

中国西北部除了混合了来自中国内陆地区的单倍型,还混合了一部分在中国其它地区的群体之间几乎从来没有发现的来自中东、典型等这些欧亚大陆西部地区的特征谱系。这可能与西北地区受伊斯兰教影响的中国原住民群体的大部分的回族人口有一定的相关性,而该地区的回族主要源于宗教文化的转变,在宗教文化的交流过程中可能会导致部分西方基因的混合进入中国的西北地区。

Y 染色体单倍群与民族的关系

中国是一个多民族的国家,民族是长期历史发展而形成的稳定共同体,一群基于历史、文化、语言、宗教或行为与其它人群有所区别的群体,但是关于中国民族形成过程的研究是一个悬而未决的议题。通常一个民族发展与演化与种群的遗传具有高度的一致性,因此研究一个人群的遗传结构,可以帮助我们了解这个族群形成发育过程,以及与更好的探讨不同其民族间关系。

表 5.3.1不同民族 Y 染色体单倍群分布比例

民族 总量 O C N Q R D H E G J
纳西 1 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
13 46.15 7.69 7.69 15.38 23.07 0.0 0.0 0.0 0.0 0.0
1 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
481 77.54 6.86 7.48 3.95 1.45 1.45 0.62 0.41 0.2 0.0
土家 2 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
裕固 1 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 0.0 0.0
2 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
临高 1 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
维吾尔 2 0.0 0.0 0.0 0.0 50.0 0.0 0.0 0.0 0.0 50.0
1 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
朝鲜 2 50.0 0.0 0.0 50.0 0.0 0.0 0.0 0.0 0.0 0.0
14 42.85 57.14 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
2 50.0 50.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
4 75.0 0.0 0.0 0.0 0.0 25.0 0.0 0.0 0.0 0.0
蒙古 9 66.66 22.22 11.11 0.0 0.0 0.0 0.0 0.0 0.0 0.0

图5.3.1 根据不同民族人群单倍型频率计算的的 AWOAS 差异矩阵

表 5.3.1不同民族 Y 染色体之间的 Fst 差异值

图5.3.3 根据不同民族人群单倍型频率计算 Fst 值的绘制的无根毗邻系统发生树 . The optimal tree with the sum of branch length = 0.11011500 is shown. The evolutionary distances were provided by the user. Evolutionary analyses were conducted in MEGA7
.

图5.3.4 根据不同民族人群单倍型频率主成分1和主成分2绘制的主成分分析图

从中国民族的基因频率的主成分分布图可以可以看出少数民族与汉族的有许多相似之处,这说明了各地汉族人群中已融入了不少当地少数民族的血缘。同时,各地少数民族也从当地汉族吸收了相当多的血缘。根据17个少数民族相互间遗传距离绘制的系统树也和组成分分析的结构图可以明显地表明,中国地区的民族可以大致上分为南北两大群,长江以南的民族为一群,长江以北的民族为另一群。在南方群中傣、侗、黎、瑶等典型南方蒙古人种民族紧密地聚在一起,同时语言属彝支的纳西、白等族都在南方群,此外布依、畲、苗、南方族群,而蒙古族和满族则分布在水平线的下方在北方群中。

汉族

从主成分分析图可以看出汉族人群虽然各地区具有差异,但是大致上是紧密联系在一起并可以明显的和其它民族区分开来的,文波等人在2004年和以及薛付忠等人在2008年发表的研究表明,南北汉族并没有向其它少数民族一样存在一个明显的南北界线而且对南北地区人群的遗传结构的研究表明南北地区父系单倍群的频率大致上是相同的。

南北汉族之间的混合状态或许可以归于北方人群的扩张。新石器时代的中国形成了两个很重要的文明:仰韶文明、河姆渡文明,农业的产生主要是这两块地方,这两拨人对现在的中国各民族有很大的基因贡献。在中国的历史上,有三次大的移民期,西晋末年衣冠南渡,唐的安史之乱,还有辽和金的时候,大量的迁徙造成了民族的大融合。

回族

回族与汉族类似,在 Y 染色体上回族中也是中国本土单倍群 O-M122的频率较高,同时回族中还明显高频的有单倍群 J 和 Q,以及低频的 N、C 和 R,这些单倍群是典型的欧亚大陆西部或中东地区的特征支系,而在汉族人群中只具有很低的频率,而在回族中这些支系约占到20%多。这说明了回族的来源极其复杂,是由中东、欧洲、中亚、南亚等地区的穆斯林或其他族群零散来到中国,随机融入中国的本土族群形成的。

有不少的学者对各地区分布的回族群体进行研究。各项研究普遍指出,回族虽然带有部分西方人群的遗传特征,而族群总体的遗传结构却最接近当地的汉族。例如兰州大学的谢小冬等分析了甘肃临夏的回族群体的少数法医学常用的常染色体 STR 位点,发现甘肃回族与甘肃汉族最为接近,但也带有高加索类型的等位基因。对新疆回族的线粒体研究显示,新疆回族的线粒体单倍群有93.3%属于东部欧亚特征单倍群,这如果不是近期的汉族基因流动的结果,很有可能是历史上与汉族通婚中,汉族母系的贡献。这说明这一回族群体的遗传结构总体倾向于当地汉族。

北方少数民族

Karafet 等2001年对中国和中亚地区的25个群体的1300多份样本的 Y 染色体进行分型研究,研究的结果发现在中国内部南北人群间单倍群的遗传差异是非常小得,甚至在中国南北群体之间没有发现遗传分化。随后薛雅丽等人使用贝叶斯全似然法来分析了采集自中国、韩国、蒙古和日本的27个群体近1000份样本,并对其中的45个单倍群遗传相关的 SNP 和16个 STR 位点进行了分型,研究发现中国北方群人群中的 Y 染色体遗传多样性相比较中国南方地区来说要高,因此薛雅丽等人推测北方群体的扩散可能要更早于南方地区群体。但接着石宏指出 Karafet 和薛雅丽等人分析结果所观察到的北方群体的高多样性应该是由于近期的人群混合造成的。另外在维吾尔族、蒙古族和满族的中的基因频率都有较高的基因多样性高并推测产生这种现象的原因很有可能是这些少数民族的人群与西方人群以及汉族大规模混合的结果。

参考北方的阿尔泰语系的民族,例如满族、蒙古族中普遍存在较高的比例的 C3分布,可以推测出北方汉族中偏高的 C3是与北方民族相关的,根据地图上单倍群 C 的分布可以看出单倍群 C 在中国北部及其周边地区分布频率较高而在其它周围的其它地区频率这迅速的降低,这说明这周边存在着比较强烈的遗传瓶颈,因此这很好的解释 C 单倍群在北方的频率高于南方的原因,还为该群系由南往北的迁徙提供了佐证。

Zerjal 等人在2003年对蒙古人群的遗传结构进行调查,研究的结果发现在大部分的阿尔泰人群中的单倍群 C3,存在着一个被称之为”星簇”(star-cluster,C3*-star)特殊的 STR 单倍型,这个单倍型占据了20%以上蒙古人同时也分布于东北到中亚的很多少数民族,通过对这个单倍型的出现时间进行估计,发现该单倍群扩张年代只有1000年多一些。考虑到这个单倍型在蒙古族群中较为高频的出现,因此可以将这个单倍型作为蒙古扩张的一个标记单倍型。

如果在历史上曾经发生过大规模的蒙古人群融入汉族的事件,假设混入的比例为10%,那么现在的汉族人群中将至少存在2%的比例 C3*-star。但是复旦大学对大量的汉族人群样本进行了测量,结果没有在汉族群体的数据库中发现一例的 C3*-star,此外,在中国北部的部分蒙古族、通古斯人(鄂温克、赫哲、鄂伦春)、哈萨克斯坦族和少部分的满族人群中同样存在较为高频的(>30%)C3c-M48单倍群,因此可以推测出汉族人群的父系中几乎不存在从蒙古人群中混入的情况,目前对于汉族人群中较高频率出现的单倍群 C 的来源还有明确的定论,有的学者猜测汉族人群中的 C3的出现可能伴随这古代的鲜卑等中国北方的少数民族大量的融入汉族造成的。但是由于目前已经不存在直系的鲜卑族后裔民族,因此只能借助古 DNA 的手段来对其进行推测,但是由于目前古鲜卑族人群的 DNA 样本有限,因此对于中国汉族人群中高频的单倍群 C3的来源还有待考据。

Y 染色体与方言分布

语言通常与遗传有着不可分割的关系,通常在一个谱系下的遗传结构相近的人群在语言结构上也会具有很高的相识度,在现代人类学还未发达的时期,语言谱系的分类一向被认为是世界人类谱系树的最重要的标准之一,随着分型技术的发展现代遗传学已经能够对世界范围内人群的使用经典遗传标记分子做出世界人类的遗传谱系,遗传标记分子的系统学分析表现出其与世界语言的系统树有相当高的相关性,这进一步支持了基因与语言之间相互协同进化的关系。

但是目前对于中国地区人类遗传谱系与语言系统之间的关系目前国内的研究还比较的系群,但是就从目前已经发表的研究依旧能够说明人群的遗传与语言系统之间有着不和被分割的关系。Chu 等人在1998年使用38个经典遗传标记对中国人群的遗传结构进行了研究,结果显示出 Y 染色体的遗传与语言分化有着一定程度的关联性,通常在同一语系的人群倾向于在某些特定的单倍群上具有更高的频率,而对 mtDNA 的研究却没有明显表现出语言与遗传之间的联系,这提示了父系遗传和母系遗传之间在遗传行为上的差异可能是造成语言与遗传间差异的主要因素 。

对于语言与遗传结构的研究显示,不同语系人群中的单倍型有着不同频率,汉藏语系的人群主要的单倍群是 O2-M122;而藏族人群中有着高频的单倍群 D-M174频率;阿尔泰语系中的人群主要的单倍型是 C-M130;中国南方的南亚语系和茁瑶语系人群主要的单倍型是 O2-M122和 O1b1a1a-M95;属于侗台、南岛语系的人群中的主要单倍群类型是 O1a-M119和 O1b1a1a-M95。

本节将探讨了不同的汉语方言是否也会存在语言与遗传一致的现象,并根据人群的遗传结构绘制出不同汉族方言的系统发生树。

表5.4.1 不同方言 Y 染色体单倍群分布比例

方言 总量 O C N Q R D H E G J
官话北京 35 57.14 8.57 17.14 8.57 5.71 0.00 2.85 0.00 0.00 0.00
官话东北 28 60.71 32.14 3.57 3.57 0.00 0.00 0.00 0.00 0.00 0.00
官话江淮 73 78.08 8.21 9.58 0.00 1.36 1.36 0.00 1.36 0.00 0.00
官话鲁晋 49 73.46 16.32 4.08 2.04 2.04 0.00 2.04 0.00 0.00 0.00
官话西南 60 78.33 5.00 5.00 5.00 3.33 3.33 0.00 0.00 0.00 0.00
官话中原 44 84.09 2.27 9.09 2.27 0.00 2.27 0.00 0.00 0.00 0.00
晋语 29 65.51 17.24 6.89 6.89 0.00 0.00 0.00 3.44 0.00 0.00
闽语 17 70.58 0.00 23.52 0.00 5.88 0.00 0.00 0.00 0.00 0.00
吴语 149 77.18 6.71 4.69 4.69 2.68 2.01 0.67 0.00 0.67 0.67
湘语 18 72.22 0.00 5.55 16.66 0.00 5.55 0.00 0.00 0.00 0.00
粤语 22 81.81 0.00 9.09 9.09 0.00 0.00 0.00 0.00 0.00 0.00
赣语 16 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

表5.4.3 不同方言地区 Y 染色体单倍群 O 的分布比例

方言 总量 O1a O1b O2
赣语 16 18.75 6.25 75.0
闽语 12 8.33 8.33 83.33
粤语 18 16.66 5.55 77.77
西南官话 46 21.73 13.04 65.21
吴语 115 21.73 4.34 73.91
中原官话 37 16.21 0.0 83.78
晋语 19 5.26 0.0 94.73
官话鲁晋 36 0.0 5.55 94.44
江淮官话 57 15.78 0.0 84.21
官话北京 20 5.0 5.0 90.0
湘语 13 30.76 0.0 69.23
官话东北 17 11.76 0.0 88.23

图5.4.1 不同地区人群的差异矩阵,左图为根据不同省份人群单倍型频率

计算的的 AMOVA 差异矩阵,右图为根据不同省份人群单倍型频率计算的的 Fst 的矩阵

###

图5.4.2 根据不同方言人群单倍型频率计算 Fst 值的绘制的无根毗邻系统发生树(The optimal tree with the sum of branch length = 0.11011500 is shown. The evolutionary distances were provided by the user. Evolutionary analyses were conducted in MEGA7.)

语言学上把汉语族内可分为秦语支(官话、晋语、粤语、平话)、齐语支(闽南、闽北、闽东、闽中、兴化)、楚语支(湘语,赣语、客家话、徽语、吴语),根据不同方言间的遗传差异可以绘制出各个方言之间的无根毗邻系统发生树(Neighbor-Joining Tree),配合 AMOVA 分析、主成分分析和系统树发育树的结果可以看出,不同语系之间 Y 染色体还是存在比较大的遗传差别的。

从表5.4.1不同方言的人群遗传结构可一看出,官话北京有着最为丰富的遗传结构,覆盖了 O、C、N、Q、R 等多个 Y 染色体单倍群,这是其它方言地区所不具有的,北京作为近代的政治中心,不可避免的融合不同种族的人群;官话江淮、官话鲁晋、官话西南、官话中原作为终于地区的方言,它们在遗传上具有一定的相识性但是却各有不同,从无根毗邻系统发生树中,我们可以看出,官话西南要更接近南方方言,而官话鲁晋、官话中原则更为接近北方方言。晋语、闽语、吴语、湘语、粤语、赣语在人群的结构上也十分的相识,这也说明了语言和人群的遗传结构是由一定的关联的。

从表5.4.1不同单倍群 O 的亚单倍群的部分频率更加的可以看出这一关系,中国南方的语中闽语和东南官话具有更高频率单倍群 O1b,偏向西南地区的的语种湘语、西南官话具有更高频率单倍群 O1a,而中原地区的方言晋语、官话鲁晋有着更高频率的单倍群 O2,这与语言系统的分类是一致的。

Y 染色体与家族传承

在中国地区人们的姓氏大多继是跟随着父辈的姓氏继承的,与此同时只有男性的体内存在着 Y 染色体,因此 Y 染色体上的片段是严格遵循着的父系遗传的这就形成了在 Y 染色体的遗传与中国姓氏的伴随关系,通常来说相同姓氏的男性可能有着更为接近的 Y 染色体类型。但是这之间的遗传关系并不是绝对的从母姓、改姓等社会因素弱化了姓氏与 Y 染色体之间的关系,对家谱研究可以帮助我们厘清父系血缘的关系。

现代遗传学可以根据可以通过 Y 染色体上的 SNP 位点可以稳定的在随着父系中遗传的特性来构建可靠的父系基因谱系和推测相应的遗传时间。因此 Y 染色体可用以用于重新构建遗传谱系树并帮助研究姓氏宗族的历史,甚至解开千百年前的历史疑案。

表5.5 不同姓氏 Y 染色体单倍群分布比例

民族 总量 O C N Q R D H E G J
34 70.58 8.82 2.94 11.76 5.88 0.00 0.00 0.00 0.00 0.00
28 89.28 0.00 0.00 10.71 0.00 0.00 0.00 0.00 0.00 0.00
26 80.76 7.69 11.53 0.00 0.00 0.00 0.00 0.00 0.00 0.00
26 73.07 7.69 11.53 7.69 0.00 0.00 0.00 0.00 0.00 0.00
22 72.72 13.63 4.54 9.09 0.00 0.00 0.00 0.00 0.00 0.00
14 64.28 7.14 7.14 14.28 7.14 0.00 0.00 0.00 0.00 0.00
13 84.61 7.69 7.69 0.00 0.00 0.00 0.00 0.00 0.00 0.00
13 84.61 7.69 7.69 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10 80.00 10.00 0.00 0.00 0.00 10.00 0.00 0.00 0.00 0.00
10 50.00 30.00 10.00 0.00 0.00 10.00 0.00 0.00 0.00 0.00
10 50.00 0.00 10.00 20.00 20.00 0.00 0.00 0.00 0.00 0.00
10 60.00 30.00 0.00 0.00 0.00 0.00 10.00 0.00 0.00 0.00
9 77.77 0.00 22.22 0.00 0.00 0.00 0.00 0.00 0.00 0.00
9 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
9 88.88 0.00 0.00 0.00 0.00 11.11 0.00 0.00 0.00 0.00
8 75.00 0.00 12.50 0.00 0.00 12.50 0.00 0.00 0.00 0.00
8 75.00 0.00 25.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
7 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
7 42.85 14.28 0.00 28.57 14.28 0.00 0.00 0.00 0.00 0.00
6 66.66 16.66 16.66 0.00 0.00 0.00 0.00 0.00 0.00 0.00
6 83.33 0.00 16.66 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 80.00 20.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 40.00 40.00 0.00 0.00 0.00 0.00 0.00 20.00 0.00 0.00
5 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
5 80.00 0.00 0.00 0.00 0.00 20.00 0.00 0.00 0.00 0.00
4 50.00 25.00 0.00 0.00 25.00 0.00 0.00 0.00 0.00 0.00
4 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 75.00 0.00 0.00 25.00 0.00 0.00 0.00 0.00 0.00 0.00
4 50.00 0.00 50.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 50.00 25.00 25.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
4 25.00 25.00 0.00 50.00 0.00 0.00 0.00 0.00 0.00 0.00
4 50.00 25.00 25.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

父系社会是中国主要的社会形态。通常一个父系的子女都生活在父系所在地的周围,因此在一些比较小型的群落里常常可以看到这些居住在一块的子代通常很容易经常形成一个村落,而女性则恰恰相反,由于女性常常出嫁是要远赴他乡,在较低的范围内女性通常有比男性更高的流动性。这种行为的结果就是后代的民族和语言属性等一般都是跟随着父系的。这就造成了这也是 Y 染色体通常与民族、语言这些需要继承的属性关联更紧密,而相反的是线粒体由于它的流动型造成了和地理区域的关系更为紧密。

从表5.5的统计结果可以看出来,虽然父氏遗传通常伴随 Y 染色体的遗传的,但是由于一些历史因数依然造成了姓氏与遗传的不缺定性,例如同宗男子过继、非婚生子、入赘后子随母姓,外姓过继等等这些情况都有可能造成同一个父系家族下出现不同单倍群的情况,通过统计结果也可以看出来在大多数情况下,就简单的用一个的单倍群类型区推测一个家族的类型显然是不够合理的。但是如果能够在两个姓氏相同的家族中测出相同的 Y 染色体单倍型类型,那么至少能够说明这两个家族之间存在着共同的祖先。

讨论与小结

讨论

Y 染色体单倍群 D 的起源存疑

Y 染色体单倍群 D 在中国地区的占比为7.2%,是亚洲地区的第三大单倍群,但是对于中国地区 Y 染色体单倍群 D 的起源至今依然没有一个合理的解释这显然有些不合理,已经有不少的研究者都曾经对这个问题进行了考究。Chandrasekar A 等人在2007年发表的论文阐述了他们在印度的东北部一些族群中发现存在着 YAP 插入而在印度东北部的安达曼群岛上的人群中却检测出 M174突变。由此他们认为 D-M174突变和 YAP 插入很有可能是在南亚印度一带地区由单倍群 CT-M168突变而成,但是如果这个结果成立的化与单倍群 D 带有 YAP 插入的 E 单倍群也很可能是亚洲起源,但没有证据进一步支持。如果单倍群 D-M174一样同样存在 YAP 突变的单倍群 E-M96也应该诞生与亚洲,但是目前并没有发现单倍群 E-M96起源与亚洲的证据,因此对于单倍群 D-M174起源亚洲的论述依然有待科学的考证,但是如果单倍群 D-M174和单倍群 A-M91和单倍群 B-M60一样起源于非洲,那么究竟单倍群 D-M17究竟是如何来到亚洲的是一个十分有趣的话题。

单倍群 D-M174在中国的分布呈现出星状分布,在大部分的中国、东南亚和中亚群体人群中单倍群 D-M174分布的比例只有低频的分布,但是高频的分布在中国北部的藏缅群体、安达曼尼群岛的格利陀人和日本的阿伊努人等人群当中。其中中国北部的藏缅群体的单倍群 D-M174主要是下游的亚分支 D1-M15,日本的阿伊努人群体中分布的主要是亚单倍群 D2-M5,而亚单倍群 D3-P99则主要分布于青藏康区,尤其是高频的分布的分布于白马人以及纳西族等群体中,单倍群 DE-M145以几乎100%的高频存在于安达曼群岛被发现至少已经被隔离2万年的时间。

综上所述可以发现亚分支 D1-M15、D3-P99和 DE-M145主要都分布与中国地区的东南地区靠近印度洋一带,但是比较奇怪的是远在东方切被独立的日本岛上高频的 D2-M5究竟是如何产生的。石宏等人曾经推论单倍群 D-M174有可能在约在6万年前早于中国的其他主要的单倍群支系的迁徙一路北上一直扩张到中国西部地区,随后单倍群 D-M174有可能向南迁徙经由冰川时期的台湾和琉球群岛所形成的大陆桥最终抵达日本岛,也有可能通过北向路线一路经由朝鲜半岛最终达日本岛。

后来由于新生的单倍群 O-M175的北上,很有可能和单倍群 D-M174为的主体人群发生过战役,结果将单倍群 D-M174为的主体人群驱逐出中国的东部的地区,中国古代的历史传说中也有有关与这场史前大战的记载,单倍群 D-M174的人群由于具有棕色的肤色被当成异族人群被以黄色肤色为代表的单倍群 O-M175所驱逐。

但是目前无论是从遗传学的角度还是考古学的角度来看,中国地区找不到任何证据来证明日本岛上高频的亚单倍群 D2-M5的尼格利陀人曾经在中国大陆的东部出现过。而在中国等地区分布的尼格利陀人当中却未发现过发现过单倍群 D-M174的存在,研究表明尼格利陀人很有可能在旧石器晚期曾经占据了整个中国大陆,但是他们现在的分布却不知始终,他们的父系也许早在1.8万年前就被被来自于巴布亚岛的单倍群 C2-M38和单倍群 K-M9的扩张所取代,也有可能被近时期来起源于中国大陆的单倍群 O-M175所替换。

但是由于目前调查发现的资料不足,因此关于单倍群 D-M174在中国的历史还有待遗传学和考古学界共同的研究考据。

Y 染色体单倍群 Q 的起源问题

单倍群单倍群 Q-M242在中国具有广泛的分布,但是比较奇怪的是考古学家在北方考古发现中没有发现新旧石器单倍群 Q-M242系墓葬,同时在南方也没有发现任何新旧石器 Q1a1-M120类型墓葬,因此亚单倍群 Q1a1-M120在汉族人群中较大比例的出现显得十分奇怪。Y 染色体单倍群单倍群 Q-M242是典型的欧洲人群特征单倍群,在美洲、欧洲和中国地区均有分布,而单倍群 Q-M242的分支 Q1a1-M120则主要分布在中国。

目前有不少的人类研究学者认为单倍群 Q1-L232是1.5~1.0万年前进入中国的细石器文明的创造者。曾经有观点认为 Q1a1为汉族所独有,后来发现 Q1a1广泛低频存在于汉藏民系中。Q1a1也低频存在于与汉族有关联的越南,朝鲜,以及中亚东干人中。还有观点认为 Q1a1是中国姬周族的主要父系单倍群标志,三四千年左右才从新疆进入中国,他们把中东文明也带进了中国,并在中国西北一带形成了最早的华夏族。

但是目前还没有发现能够证明单倍型 Q-M242的起源及迁徙的证据, 因此对与 Q-M242在中国的起源还有待更多的人类群体遗传学研究结果和考古学的发现, 同时对于 Q-M242的起源及迁徙的探讨还应该结合古地理学、语言学、历史学、人类学等学科共同研究的成果才能得出正确的结论。

小结

由于样本地域以及种类的限制,本次实验所搜集到大部分的样本均为沿海地区汉族人群的样本,因此对于评估各族、各地区以及不同方言地区人群的遗传差异还有待更为相近的人群遗传结构数据的采集,本文的主要目的在于提供一种从 SNP 分型芯片数据中获取单倍型数据的方法,关于各个单倍群的起源及迁徙的探讨还应该结合古地理学、语言学、历史学、人类学等学科共同研究的成果才能得出正确的结论。

结论

本文通过 Affymetrix Axiom SNP 基因芯片对564个中国人群样本的染色体 SNP 位点进行测定并使用 AMY-Tree 对单倍群进行分类,使用 ARLEQUIN 计算出不同群间的 F-statistics 值、Nei 遗传距离并使用分子方差分析(AMOVA)进行交叉验证,使用 MEGA 绘制出各个种群的毗邻无根系统发育树,并对对各个种群使用 ADE2进行主成分分析(PCA)以发现不同群体之间的遗传差异,从而帮助我们更好的了解中国的人群的遗传结构及与文化,历史的关系。

对人群中单倍群频率的研究可以得到以下结论:(1)单倍群 O-M175,C-M130,D-M174和 N-M231是中国四个主要单倍群,约占到中国全部男性的93%。其他单倍群,例如 G-M201,J-P209,L-M20,Q-M242和 R-M207仅占到中国男性的7%。(2)中国的汉族人群遗传结构基本一致,但是从南至北,从西到东又存在细微的遗传差异,这是由于汉族群体在进行扩张时融合了部分当地的少数民族造成的。(3)中亚的西北部是各大民族的试验场,这里具有中国追为显著的单倍型多样型。(4)中国南部是中国大部分群体的发源地,具有最为古老的单倍群结构。(5)中国北部汉族中偏高的 C3与阿尔泰语系民族普遍较高的 C3比例有关。

通过比较不同方言地区群体的 Y 染色体单倍型,可以发现语言和 Y 染色体单倍群之间具有显著的相关性,这是因为,男性相比较女性,更倾向与在出生地附近安家,而女性由于需要外嫁,所以母系单倍群并不存在这样的关系。通过统计不同姓氏人群中的单倍型频率,结果表明姓氏和 Y 染色体单倍群之间具有具有显著的相关性,通常每一个姓氏的人群中中普遍具有特定类型的 Y 染色体单倍群,这是由于正常情况下,Y 染色体是伴随着父辈的姓氏遗传的。

参考文献

  1. [1]Cavalli-Sforza LL: (1998) The Chinese human genome diversity project. Proc. Natl Acad. Sci. USA, 95: 11501–11503.
  2. [2]Jobling M A, Tyler-Smith C. (1995 ) Father and sons: the Y chromosome and human evolution. Trends Genet, 11: 449–456.
  3. [3]Underhill P A, Shen P, Lin A A, et al. (2000) Y chromosome sequence variation and the history of human populations. Nat. Genet, 26: 358–361.
  4. [4]Su, B. Xiao J, Underhill P, et al. (1999 ) Y-chromosome evidence for a northward migration of modern human into East Asia during the last ice age. Am J Hum Genet, 65: 1718–1724.
  5. [5]Ke Y, Su B, Song X, et al. (2001) African origin of modern humans in East Asia: a tale of 12,000 Y chromosomes. Science, 292:1151-1153.
  6. [6]Green R E, Krause J, Briggs A W, et al. (2010) A draft sequence of the Neandertal genome. Science, 328:710-722.
  7. [7]Reich D, Green R E, Kircher M, et al. (2010) Genetic history of an archaic hominin group from Denisova Cave in Siberia. Nature 2010, 468:1053-1060.
  8. [8]Wang C C, Farina S E, Li H: (2012) Neanderthal DNA and Modern Human Origins. Quatern Int, doi:10.1016/j.quaint..02.027.
  9. [9]Shi Y F, Cui Z J, Li J J. (1989) Quaternary glacier in eastern China and the climate fluctuation. Beijing, Science Press.
  10. [10]Jobling M A, Hurles M, Tyler—Smith C. (2004) Human Evolutionary Genetics (Origins, Peoples and Disease). New York: Garland Science.
  11. [11]Clark P U, Dyke A S, Shakun J D, et al. (2009) The Last Glacial Maximum. Science, 325:710-714.
  12. [12]Zhong H, Shi H, Qi X B, et al. (2011) Extended Y chromosome investigation suggests postglacial migrations of modern humans into East Asia via the northern route. Mol Biol Evol, 28(1):717-727.
  13. [13]Piazza A: (1998) Towards a genetic history of China. Nature, 395: 636–639.
  14. [14]Yan S, Wang C C, Li H, et al. Genographic Consortium: (2011) An updated tree of Y-chromosome Haplogroup O and revised phylogenetic positions of mutations P164 and PK4. Eur J Hum Genet, 19(9):1013-1015.
  15. [15]Shi H, Dong Y L, Wen B, et al. (2005) Y-chromosome evidence of southern origin of the China-specific haplogroup O3-M122. Am J Hum Genet 2005, 77(3):408-419.
  16. [16]Kayser M, Choi Y, van Oven M, et al. (2008) The impact of the Austronesian expansion: evidence from mtDNA and Y chromosome diversity in the Admiralty Islands of Melanesia. Mol Biol Evol 2008, 25(7):1362-1374.
  17. [17]Su B, Jin L, Underhill P, et al. (2000) Polynesian origins: insights from the Y chromosome. Proc Natl Acad Sci USA, 97(15):8225-8228.
  18. [18]Ding Q L, Wang C C, Farina S E, et al. (2011) Mapping Human Genetic Diversity on the Japanese Archipelago. Advances in Anthropology, 1(2): 19-25.
  19. [19]Hammer M F, Karafet T M, Park H, et al. (2006) Dual origins of the Japanese: common ground for hunter-gatherer and farmer Y chromosomes. J Hum Genet, 51:47–58.
  20. [20]Zhivotovsky LA. (2001) Estimating divergence time with the use of microsatellite genetic distances: impacts of population growth and gene flow. Mol Biol Evol, 18:700–709.
  21. [21]Zhivotovsky L A, Underhill P A, Cinniog lu C, et al. (2004) The effective mutation rate at Y chromosome short tandem repeats, with application to human population-divergence time. Am J Hum Genet , 74:50–61
  22. [22]Cai X, Qin Z, Wen B, et al. (2011) Genographic Consortium: Human migration through bottlenecks from Southeast Asia into East Asia during Last Glacial Maximum revealed by Y chromosomes. PLoS One, 6(8):e24282.
  23. [23]Wang C C, Yan S, Qin Z D, et al. (2012) Late Neolithic expansion of ancient Chinese revealed by Y chromosome haplogroup O3a1c-002611. J Syst Evol, DOI: 10.1111/j.1759-6831.2012.00244.x
  24. [24]Zhong H, Shi H, Qi XB, et al. (2010) Global distribution of Y-chromosome haplogroup C reveals the prehistoric migration routes of African exodus and early settlement in East Asia. J Hum Genet, 55(7):428-435.
  25. [25]Kayser M, Brauer S, Cordaux R, et al. (2006) Melanesian and Asian origins of Polynesians: mtDNA and Y chromosome gradients across the Pacific. Mol Biol Evol 2006, 23: 2234–2244.
  26. [26]Sengupta S, Zhivotovsky L A, King R, et al. (2006) Polarity and temporality of high-resolution y-chromosome distributions in India identify both indigenous and exogenous expansions and reveal minor genetic influence of Central Asian pastoralists. Am J Hum Genet. 2006, 78: 202–221.
  27. [27]Gayden T, Cadenas A M, Regueiro M, et al. (2007) The Himalayas as a directional barrier to gene flow. Am J Hum Genet, 80: 884–894.
  28. [28]Karafet T M, Mendez F L, Meilerman M B, et al. (2008) New binary polymorphisms reshape and increase resolution of the human Y chromosomal haplogroup tree. Genome Res, 18:830–838.
  29. [29]Karafet T M, Xu L, Du R, et al. (2001) Paternal population history of East Asia: sources, patterns, and microevolutionary processes. Am J Hum Genet, 69(3):615-628.
  30. [30]Thangaraj K, Singh L, Reddy AG, Rao VR, Sehgal SC, Underhill PA, Pierson M, Frame IG, Hagelberg E: (2003) Genetic affinities of the Andaman Islanders, a vanishing human population. Curr Biol, 13(2):86-93.
  31. [31]Shi H, Zhong H, Peng Y, et al. (2008) Y chromosome evidence of earliest modern human settlement in East Asia and multiple origins of Tibetan and Japanese populations. BMC Biol, 6:45.
  32. [32]Wen B, Xie X, Gao S, et al. (2004) Analyses of genetic structure of Tibeto-Burman populations reveals sex-biased admixture in southern Tibeto-Burmans. Am J Hum Genet, 74(5):856-865.
  33. [33]Chandrasekar A, Saheb S Y, Gangopadyaya P, et al. (2007) YAP insertion signature in South Asia. Ann Hum Biol, 34:582-586.
  34. [34]Delfin F, Salvador J M, Calacal G C, et al. (2011) The Y-chromosome landscape of the Philippines: extensive heterogeneity and varying genetic affinities of Negrito and non-Negrito groups. Eur J Hum Genet, 19:224-230.
  35. [35]Scholes C, Siddle K, Ducourneau A, et al. (2011) Genetic diversity and evidence for population admixture in Batak Negritos from Palawan. Am J Phys Anthropol, 146:62-72.
  36. [36]Rootsi S, Zhivotovsky L A, Baldovic M, et al. (2007) A counter-clockwise northern route of the Y-chromosome haplogroup N from Southeast Asia towards Europe. Eur J Hum Genet, 15:204-211.
  37. [37]Derenko M, Malyarchuk B, Denisova G, et al. (2007) Y-chromosome haplogroup N dispersals from south Siberia to Europe. J Hum Genet, 52(9):763-770.
  38. [38]Mirabal S, Regueiro M, Cadenas A M, et al. (2009) Y-chromosome distribution within the geo-linguistic landscape of northwestern Russia. Eur J Hum Genet, 17(10):1260-1273.
  39. [39]Xue Y, Zerjal T, Bao W, et al. (2006) Male demography in East Asia: a north-south contrast in human population expansion times. Genetics, 172(4):2431-2439.
  40. [40]Wen B, Li H, Lu D, et al. (2004) Genetic evidence supports demic diffusion of Han culture. Nature, 431:302-5.
  41. [41]Kumar V, Reddy A N, Babu J P, et al. (2007)Y-chromosome evidence suggests a common paternal heritage of Austro-Asiatic populations. BMC Evol Biol, 7:47.
  42. [42]The HUGO Pan-Asian SNP Consortium.(2009) Mapping human genetic diversity in Asia. Science, 326: 1541.
  43. [43]Li H, Wen B, Chen S J, et al. (2008) Paternal genetic affinity between Western Austronesians and Daic populations. BMC Evol Biol, 8:146.
  44. [44]Atkinson Q D: (2011) Phonemic diversity supports a serial founder effect model of language expansion from Africa. Science, 332:346-349.
  45. [45]Wang C C, Ding Q L, Tao H, et al. (2012) Comment on “Phonemic diversity supports a serial founder effect model of language expansion from Africa”. Science, 335:657.
  46. [46]Atkinson Q D. (2012) Response to Comment on “Phonemic Diversity Supports a Serial Founder Effect Model of Language Expansion from Africa”. Science, 335:657.
  47. [47]Hammer M F, Spurdle A B, Karafet T, et al. (1997) The geographic distribution of human Y chromosome variation. Genetics, 145:787–805.
  48. [48]Hammer M F, Karafet T, Rasanayagam A, et al. (1998) Out of Africa and back again: nested cladistic analysis of human Y chromosome variation. Mol Biol Evol, 15: 427–441.
  49. [49]Hammer M F, Karafet T M, Redd A J, et al. (2001) Hierarchical patterns of global human Y-chromosome diversity. Mol Biol Evol, 18:1189–1203.
  50. [50]Underhill P A, Passarino G, Lin A A, et al. (2001) The phylogeography of Y chromosome binary haplotypes and the origins of modern human populations. Ann Hum Genet, 65:43–62.
  51. [51]Underhill P A, Roseman C C. (2001) The case for an African rather than an Asian origin of the human Y-chromosome YAP insertion. In: Jin L, Seielstad M, Xiao C (eds) Recent advances in human biology, vol. 8: genetic, linguistic and archaeological perspectives on human diversity in Southeast Asia. World Scientific Publishing, New Jersey, pp 43–56.
  52. [52]Cruciani F, Santolamazza P, Shen P D, et al. (2002) A Back Migration from Asia to Sub-Saharan Africa Is Supported by High-Resolution Analysis of Human Y-Chromosome Haplotypes. Am. J. Hum. Genet 70:1197–1214.
  53. [53]Forster P, Colin R. (2011) Mother Tongue and Y Chromosomes. Science, 333:1390-1391.
  54. [54]Cavalli-Sforza L L, Menozzi P, Piazza A. (1994) The History and Geography of Human Genes. Princeton: Princeton Univ. Press.
  55. [55]Sokal R, Oden N L, Wilson C. (1991) Genetic evidence for the spread of agriculture in Europe by demic diffusion. Nature, 351: 143–145.
  56. [56]Chikhi L, Nichols RA, Barbujani G, et al. (2002) Y genetic data support the Neolithic demic diffusion model. Proc Natl Acad Sci USA, 99:11008–11013.
  57. [57]Zerjal T, Xue Y, Bertorelle G, et al. (2003) The genetic legacy of the Mongols. Am J Hum Genet, 72: 717–721.
  58. [58]Abilev S, Malyarchuk B, Derenko M, et al. (2012) The Y-chromosome C3* star-cluster attributed to Genghis Khan’s descendants is present at high frequency in the Kerey clan from Kazakhstan. Hum Biol, 84(1):79-89.
  59. [59]Xue Y, Zerjal T, Bao W, et al. (2010) Recent spread of a Y-chromosomal lineage in northern China and Mongolia. Am J Hum Genet 2005, 77:1112–1116.
  60. [60]Wang C C, Yan S, Li H:(2010) Surnames and the Y Chromosomes. Commun Contemp Anthropol, 4:e5/27-34.
  61. [61]Wang C, Yan S, Hou Z, et al. (2012) Present Y chromosomes reveal the ancestry of Emperor CAO Cao of 1800 years ago. J Hum Genet, 57(3):216-8.
  62. [62]Sykes B, Irven C: (2000)Surname and the Y-chromosome. Am J Hum Genet, 66: 1417-1419.
  63. [63]Gusmão L, Sánchez-Diz P, Calafell F, et al. (2005) Mutation rates at Y chromosome specific microsatellites. Hum Mutat, 26:520-528.
  64. [64]1000 Genomes Project Consortium: (2010) A map of human genome variation from population-scale sequencing. Nature, 467:1061-73.
  65. [65]Xue Y, Wang Q, Long Q, et al. (2009) Human Y chromosome base-substitution mutation rate measured by direct sequencing in a deep-rooting pedigree. Curr Biol, 19(17):1453-7.