cervus 是经典的亲子鉴定软件。
cervus 原理
下载 cervus
去官网下载软件(见参考文献的第一条链接),我下载的是 3.0.7 版本
准备基因型文件
基因型文件可以由 plink 文件生成,第一列是个体号,从第二列起为每个位点的基因型,一个基因型占2列(SSR 使用片段大小,SNP 可以使用碱基,缺失标记为 0),含有标题(两列基因型分别添加后缀 “a”, “b”)。
举例如下
计算等位基因频率
点击 Analysis
,然后点击 Allele Frequency Analysis
在弹出的窗口设置如下,其中左下部分含义为
Header row
: 是否有标题Read locus names
: 是否读取位点名称ID in column
: 样本号在第几列First allele in column
: 第一个位点的基因型在第几列Number of loci
: 位点总数
右下部分默认不动(含义为做哈温伯格平衡测试,最小期望频率为5,使用叶氏连续性修正,使用Bonferroni校正,估计无效等位基因频率)。
运行结束了我们得到了两个结果文件
frequence.alf
就是等位基因型频率结果文件
frequence.txt
文件各列内容如下
Locus
: 位点名称k
: 等位基因型数目N
: 该位点的样本数目(应该是剔除缺失后的)HObs
: 该位点的观测杂合度HExp
: 该位点的期望杂合度PIC
: 该位点的多态信息含量 (Polymorphic information content)
后续列为(注意,这里的结果是非排除概率,排除概率等于 1- 该列的值) 。
后面三列应该对应着三种情况,双亲的基因型均未知鉴定一个候选亲本(1P), 已知一个亲本基因型鉴定另一个候选亲本(2P),双亲的基因型均未知鉴定一对候选亲本(PP)。
NE-I 对应个体识别的非排除概率。
NE-1P: Average non-exclusion probability for one candidate parent.
NE-2P: Average non-exclusion probability for one candidate parent given the genotype of a known parent of the opposite sex.
NE-PP: Average non-exclusion probability for a candidate parent pair.
NE-I: Average non-exclusion probability for identity of two unrelated individuals.
NE-SI: Average non-exclusion probability for identity of two siblings.
HW: 哈温伯格平衡NS = not significant无显著性, * = significant at the 5% level显著性水平5%, ** = significant at the 1% level显著性水平1%, *** = significant at the 0.1% level显著性水平0.1%, ND = not done没有做
F(Null): Estimated null allele frequency估计无效等位基因频率
因此,需要手动计算的排除概率如下:
PE-1P
= 1 -NE-1P
PE-2P
= 1 -NE-2P
PE-PP
= 1 -NE-PP
DP
= 1 -NE-I
之后的统计内容为
Number of individuals
: 个体数量Number of loci
: 位点数量Mean number of alleles per locus
: 所有位点平均等位基因数量Mean proportion of loci typed
: 所有位点的平均检出率Mean expected heterozygosity
: 所有位点的平均期望杂合度Mean polymorphic information content (PIC)
: 所有位点的平均多态信息含量
之后是累积非排除概率的统计。
检测重复样本
亲子鉴定前最好做一下个体识别,或者说重复样本检测,看看有没有基因型一样的个体。
点击 Analysis
,然后点击 Identity Analysis
。
设置如下,其它设置上面均提过,新增加的选项就是输出选项
Minimum number of matching loci
:这应该是说输出的重复样本之间最少应该匹配上多少个体位点Allow fuzzy matching
: 允许模糊匹配,就是说允许两个重复存在不一致位点Allow 3 mismatches
:允许重复样本之间最多存在几个不一致位点
输出文件 identity.csv
中含有所有重复样本的信息
模拟亲缘关系推断
通过模拟训练可以获得亲子关系统计指标 置信区间为80%和95%的临界值。
点击 Analysis
,然后点击 Simulation of Parentage Analysis
。
这里有四种亲子鉴定分析类型类型:maternity analysis, paternity analysis, parent pair analysis where the sexes of candidate parents are known and parent pair analysis where the sexes of candidate parents are unknown 。
可以简单地理解为单亲鉴定和双亲鉴定,下面以 parent pair (Sexes Known)
为例
其中:
Offspring
: 后代数目,默认就是 10000Candidate mothers
: 候选母本数目(包括没有基因型的样本)(父本同理)Prop. sampled
: 候选母本采样比例Prop. loci typed
:位点的分型率Prop. loci mistyped
:位点的错误分型率
这里有两个输出文件: sim_mother.sim
中包含了所有的参数,sim_mother.txt
是模拟结果。
亲子鉴定
首先将后代的个体号放在一个文件中(offspring.txt) ,如果已知亲本性别则创建一个候选父本的个体号文件(father.txt) 和 候选母本的个体号文件(mother.txt),如果亲本性别未知则将所有候选亲本放在一个文件夹中。
下面以亲本性别已知为例,点击 Analysis
再点击 Parentage Analysis
, Parent Pair (Sexes Known)
填写参数如下,每一步之后都点击 next
进入下一步,注意选择模拟结果文件时要选择相同的分析结果(比如这里是双亲有性别信息,这里的模拟结果也要用双亲有性别信息)
输出结果中 assign_out.txt
是汇总文件, assign_out.csv
是具体结果,其结构如下,首先是最可能的母本(主要关注其似然比, 还有显著性水平 ),然后是最可能的父本,然后是这个 trios 的似然比结果。
显著性水平有三种符号,*
表示亲子关系极显著,置信度超过 95%;+
表示亲子关系较显著,置信度超过 80%; -
表示亲子关系没有达到显著要求,置信度低于 80% 。
讨论
cervus 是一款经典的亲子鉴定软件,使用起来还算是比较方便简单,但是我认为它有几点缺点:
- 图形化界面,只能在 windows 环境中运行
- 必须将个体分为后代和候选亲本,没有考虑世代重叠的情况
- 当真实亲本不在候选亲本中,会错误地推出一个错误的候选亲本
- 无法有效区分亲子关系和全同胞关系