cervus软件

cervus 是经典的亲子鉴定软件。

cervus 原理

下载 cervus

去官网下载软件(见参考文献的第一条链接),我下载的是 3.0.7 版本

准备基因型文件

基因型文件可以由 plink 文件生成,第一列是个体号,从第二列起为每个位点的基因型,一个基因型占2列(SSR 使用片段大小,SNP 可以使用碱基,缺失标记为 0),含有标题(两列基因型分别添加后缀 “a”, “b”)。

举例如下

计算等位基因频率

点击 Analysis ,然后点击 Allele Frequency Analysis

在弹出的窗口设置如下,其中左下部分含义为

  • Header row : 是否有标题
  • Read locus names : 是否读取位点名称
  • ID in column : 样本号在第几列
  • First allele in column : 第一个位点的基因型在第几列
  • Number of loci : 位点总数

右下部分默认不动(含义为做哈温伯格平衡测试,最小期望频率为5,使用叶氏连续性修正,使用Bonferroni校正,估计无效等位基因频率)。

运行结束了我们得到了两个结果文件

frequence.alf 就是等位基因型频率结果文件

frequence.txt 文件各列内容如下

  • Locus : 位点名称
  • k : 等位基因型数目
  • N : 该位点的样本数目(应该是剔除缺失后的)
  • HObs : 该位点的观测杂合度
  • HExp : 该位点的期望杂合度
  • PIC : 该位点的多态信息含量 (Polymorphic information content)

后续列为(注意,这里的结果是非排除概率,排除概率等于 1- 该列的值) 。

后面三列应该对应着三种情况,双亲的基因型均未知鉴定一个候选亲本(1P), 已知一个亲本基因型鉴定另一个候选亲本(2P),双亲的基因型均未知鉴定一对候选亲本(PP)。

NE-I 对应个体识别的非排除概率。

NE-1P: Average non-exclusion probability for one candidate parent.

NE-2P: Average non-exclusion probability for one candidate parent given the genotype of a known parent of the opposite sex.

NE-PP: Average non-exclusion probability for a candidate parent pair.

NE-I: Average non-exclusion probability for identity of two unrelated individuals.

NE-SI: Average non-exclusion probability for identity of two siblings.

HW: 哈温伯格平衡NS = not significant无显著性, * = significant at the 5% level显著性水平5%, ** = significant at the 1% level显著性水平1%, *** = significant at the 0.1% level显著性水平0.1%, ND = not done没有做

F(Null): Estimated null allele frequency估计无效等位基因频率

因此,需要手动计算的排除概率如下:

  • PE-1P = 1 - NE-1P
  • PE-2P = 1 - NE-2P
  • PE-PP = 1 - NE-PP
  • DP = 1 - NE-I

之后的统计内容为

  • Number of individuals: 个体数量
  • Number of loci : 位点数量
  • Mean number of alleles per locus : 所有位点平均等位基因数量
  • Mean proportion of loci typed : 所有位点的平均检出率
  • Mean expected heterozygosity : 所有位点的平均期望杂合度
  • Mean polymorphic information content (PIC): 所有位点的平均多态信息含量

之后是累积非排除概率的统计。

检测重复样本

亲子鉴定前最好做一下个体识别,或者说重复样本检测,看看有没有基因型一样的个体。

点击 Analysis ,然后点击 Identity Analysis

设置如下,其它设置上面均提过,新增加的选项就是输出选项

  • Minimum number of matching loci :这应该是说输出的重复样本之间最少应该匹配上多少个体位点
  • Allow fuzzy matching : 允许模糊匹配,就是说允许两个重复存在不一致位点
  • Allow 3 mismatches :允许重复样本之间最多存在几个不一致位点

输出文件 identity.csv 中含有所有重复样本的信息

模拟亲缘关系推断

通过模拟训练可以获得亲子关系统计指标 置信区间为80%和95%的临界值。

点击 Analysis ,然后点击 Simulation of Parentage Analysis

这里有四种亲子鉴定分析类型类型:maternity analysis, paternity analysis, parent pair analysis where the sexes of candidate parents are known and parent pair analysis where the sexes of candidate parents are unknown 。

可以简单地理解为单亲鉴定和双亲鉴定,下面以 parent pair (Sexes Known) 为例

其中:

  • Offspring: 后代数目,默认就是 10000
  • Candidate mothers : 候选母本数目(包括没有基因型的样本)(父本同理)
  • Prop. sampled : 候选母本采样比例
  • Prop. loci typed :位点的分型率
  • Prop. loci mistyped :位点的错误分型率

这里有两个输出文件: sim_mother.sim 中包含了所有的参数,sim_mother.txt 是模拟结果。

亲子鉴定

首先将后代的个体号放在一个文件中(offspring.txt) ,如果已知亲本性别则创建一个候选父本的个体号文件(father.txt) 和 候选母本的个体号文件(mother.txt),如果亲本性别未知则将所有候选亲本放在一个文件夹中。

下面以亲本性别已知为例,点击 Analysis 再点击 Parentage Analysis , Parent Pair (Sexes Known)

填写参数如下,每一步之后都点击 next 进入下一步,注意选择模拟结果文件时要选择相同的分析结果(比如这里是双亲有性别信息,这里的模拟结果也要用双亲有性别信息)

输出结果中 assign_out.txt 是汇总文件, assign_out.csv 是具体结果,其结构如下,首先是最可能的母本(主要关注其似然比, 还有显著性水平 ),然后是最可能的父本,然后是这个 trios 的似然比结果。

显著性水平有三种符号,* 表示亲子关系极显著,置信度超过 95%;+ 表示亲子关系较显著,置信度超过 80%; - 表示亲子关系没有达到显著要求,置信度低于 80% 。

讨论

cervus 是一款经典的亲子鉴定软件,使用起来还算是比较方便简单,但是我认为它有几点缺点:

  1. 图形化界面,只能在 windows 环境中运行
  2. 必须将个体分为后代和候选亲本,没有考虑世代重叠的情况
  3. 当真实亲本不在候选亲本中,会错误地推出一个错误的候选亲本
  4. 无法有效区分亲子关系和全同胞关系

参考文献

  1. http://www.fieldgenetics.com/pages/aboutCervus_Overview.jsp
  2. https://zhuanlan.zhihu.com/p/378780428
  3. https://wenku.baidu.com/view/101e04e0aff8941ea76e58fafab069dc50224763.html?_wkts_=1682647370039
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信