Cervus亲子鉴定计算方法

2025-12-29

字数统计: 2.2k | 阅读时长≈ 11 分钟

Cervus亲子鉴定计算方法，主要是公式。

似然法基础公式

假设1 H1 ：候选亲本是真实亲本；

假设2 H2 ：候选亲本是从群体中随机选择的一个无关个体。

数据 D：trios 或 pairs 的基因型数据

此时似然比为 \[ L(H_1,H_2|D) = \frac{P(D|H_1)}{P(D|H_2)} \] 假设母本基因型已知，\(g_m,g_a,g_o\) 分别表示母本 (mother)，候选父本 (alleged father) 和子代 (offspring) 的基因型。此时假设1和假设2的似然值如下，其中 T() 函数就是按照孟德尔分配定律从亲本得到子代基因型的概率。 \[ L(H_1|g_m,g_a,g_o) = T(g_o|g_m,g_a)P(g_m)P(g_a) \]

\[ L(H_2|g_m,g_a,g_o) = T(g_o|g_m)P(g_m)P(g_a) \]

如果母本基因型未知，此时两个似然值函数如下 \[ L(H_1|g_a,g_o) = T(g_o|g_a)P(g_a) \]

\[ L(H_2|g_a,g_o) = P(g_o)P(g_a) \]

而 LOD 值是似然比的以 e 为底的对数（在 Cervus 这里）。 \[ \text{LOD} = \ln\big[\frac{L(H_1)}{L(H_2)} \big] \]

考虑分型错误后的似然法公式

这里 Cervus 3.0 （Kalinowski, 2007）修改了之前 Cervus 1.0 和 2.0 （Marshall, 1998）的计算公式，认为之前的算法存在问题，实际上计算时会增大给定的错误率，因此有文献指出对于旧版本的 Cervus ，人为设定一个比实际情况更小的错误率结果更好。当分型错误率升高时（无论是本身数据错误率高，还是软件无意识地增大了错误率），此时出现孟德尔错误的情况更加常见，想要正确判断一个错误候选亲本是无关个体的难度更大。

这里我们只考虑目前 Cervus 3.0 的方法部分，这里是假设当分型错误出现时，任何一个错误基因型观测到的概率等于其在群体中的基因型频率，并且所有个体和所有位点的分型错误率是独立和不变的。这个假设很方便，而且适用于于某些情况下的分型错误，如移液，打标签或数据输入错误。

假设 \(g\) 是观测到的基因型，设 \(\varepsilon\) 是分型错误率，\(P(g)\) 是满足哈温平衡下的群体中\(g\) 的基因型频率，那么此时观测到 \(g\) 的基因型概率如下式，仍为 \(P(g)\) ，这里第一项是没有分型错误的情况，第二项是存在分析错误并且观测到 \(g\) 的情况。 \[ (1-\varepsilon) P(g) + \varepsilon P(g) = P(g) \]

母本已知检验候选父本

假设母本基因型已知，\(g_m,g_a,g_o\) 分别表示母本 (mother)，候选父本 (alleged father) 和子代 (offspring) 的基因型，此时假设1的似然值如下，这里4个子式分别表示：(1) 所有基因型都是正确的；(2) 存在1个基因型是错误的（分别是父本、母本和子代是错误的）；(3) 存在2个基因型是错误的；(3) 所有基因型都是错误的。这里下划线的部分就是对应的错误的基因型。

这里每一个式子都是由两部分构成的，第一部分是三个基因型是正确或错误的概率，第二部分是满足基因型正确或错误条件下观测到这三个基因型的概率。举个例子，最后一个式子，所有基因型均错误的概率是 \(\varepsilon^3\) ，当所有基因型均错误的情况下观测到 \(g_m,g_a,g_o\) 的概率是 \(P\left(g_m\right) P\left(g_a\right) P\left(g_o\right)\) 。 \[ \begin{aligned} L\left(H_1\right)= & (1-\varepsilon)^3\left[T\left(g_o \mid g_m, g_a\right) P\left(g_m\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_m\right) P\left(g_m\right) \underline{P\left(g_a\right)}\right. \\ & \left.+T\left(g_o \mid g_a\right) P\left(g_a\right) \underline{P\left(g_m\right)}+P\left(g_m\right) P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2(1-\varepsilon)\left[P\left(g_m\right)\underline{ P\left(g_a\right) P\left(g_o\right)}\right. \\ & +\underline{P\left(g_m\right)} P\left(g_a\right) \underline{P\left(g_o\right)}+\left.\underline{P\left(g_m\right) P\left(g_a\right) }P\left(g_o\right)\right] \\ & +\varepsilon^3\left[\left.\underline{P\left(g_m\right) P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \] 此时假设2的似然值如下 \[ \begin{aligned} L\left(H_2\right)= & (1-\varepsilon)^3\left[T\left(g_o \mid g_m\right) P\left(g_m\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_m\right) P\left(g_m\right) \underline{P\left(g_a\right)}\right. \\ & \left.+P\left(g_o \right) P\left(g_a\right) \underline{P\left(g_m\right)}+P\left(g_m\right) P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2(1-\varepsilon)\left[P\left(g_m\right)\underline{ P\left(g_a\right) P\left(g_o\right)}\right. \\ & +\underline{P\left(g_m\right)} P\left(g_a\right) \underline{P\left(g_o\right)}+\left.\underline{P\left(g_m\right) P\left(g_a\right) }P\left(g_o\right)\right] \\ & +\varepsilon^3\left[\left.\underline{P\left(g_m\right) P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \]

母本未知检验候选父本

易得，此时假设1的公式为 \[ \begin{aligned} L\left(H_1\right)= & (1-\varepsilon)^2\left[T\left(g_o \mid g_a\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)\left[P\left(g_o\right) \underline{P\left(g_a\right)}\right. \left.+ P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2\left[\left.\underline{ P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \] 假设2的公式为 \[ \begin{aligned} L\left(H_2\right)= & (1-\varepsilon)^2\left[P\left(g_o\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)\left[P\left(g_o\right) \underline{P\left(g_a\right)}\right. \left.+ P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2\left[\left.\underline{ P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \]

同时检验候选父本和候选母本

这里将候选母本的基因型表示为了 \(g_{am}\)

易得，此时假设1的公式为 \[ \begin{aligned} L\left(H_1\right)= & (1-\varepsilon)^3\left[T\left(g_o \mid g_{am}, g_a\right) P\left(g_{am}\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_{am}\right) P\left(g_{am}\right) \underline{P\left(g_a\right)}\right. \\ & \left.+T\left(g_o \mid g_a\right) P\left(g_a\right) \underline{P\left(g_{am}\right)}+P\left(g_{am}\right) P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2(1-\varepsilon)\left[P\left(g_{am}\right)\underline{ P\left(g_a\right) P\left(g_o\right)}\right. \\ & +\underline{P\left(g_{am}\right)} P\left(g_a\right) \underline{P\left(g_o\right)}+\left.\underline{P\left(g_{am}\right) P\left(g_a\right) }P\left(g_o\right)\right] \\ & +\varepsilon^3\left[\left.\underline{P\left(g_{am}\right) P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \] 假设2的公式为 \[ \begin{aligned} L\left(H_2\right)= & (1-\varepsilon)^3\left[P\left(g_o \right) P\left(g_{am}\right) P\left(g_a\right)\right] \\ & +\varepsilon(1-\varepsilon)^2\left[P\left(g_o\right) P\left(g_{am}\right) \underline{P\left(g_a\right)}\right. \\ & \left.+P\left(g_o \right) P\left(g_a\right) \underline{P\left(g_{am}\right)}+P\left(g_{am}\right) P\left(g_a\right) \underline{P\left(g_o\right)}\right] \\ & +\varepsilon^2(1-\varepsilon)\left[P\left(g_{am}\right)\underline{ P\left(g_a\right) P\left(g_o\right)}\right. \\ & +\underline{P\left(g_{am}\right)} P\left(g_a\right) \underline{P\left(g_o\right)}+\left.\underline{P\left(g_{am}\right) P\left(g_a\right) }P\left(g_o\right)\right] \\ & +\varepsilon^3\left[\left.\underline{P\left(g_{am}\right) P\left(g_a\right) P\left(g_o\right)}\right]\right. \end{aligned} \]

简化后的式子

母本未知检验候选父本的公式如下 \[ \begin{aligned} &L\left(H_1\right)=P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^2 T\left(g_o \mid g_a\right) \\ +\varepsilon(1-\varepsilon) 2 P\left(g_o\right) \\ +\varepsilon^2 P\left(g_o\right) \end{array}\right\}\\ &L\left(H_2\right)=P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^2 P\left(g_o\right) \\ +\varepsilon(1-\varepsilon) 2 P\left(g_o\right) \\ +\varepsilon^2 P\left(g_o\right) \end{array}\right\} \end{aligned} \] 母本已知检验候选父本的公式如下 \[ \begin{gathered} L\left(H_1\right)=P\left(g_m\right) P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^3 T\left(g_o \mid g_m, g_a\right) \\ +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_m\right)+T\left(g_o \mid g_a\right)+P\left(g_o\right)\right] \\ +\varepsilon^2(1-\varepsilon) 3 P\left(g_o\right) \\ +\varepsilon^3 P\left(g_o\right) \end{array}\right\} \\ L\left(H_2\right)=P\left(g_m\right) P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^3 T\left(g_o \mid g_m\right) \\ +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_m\right)+2 P\left(g_o\right)\right] \\ \left.+\varepsilon^2 3-\varepsilon\right) 3 P\left(g_o\right) \\ +\varepsilon^3 P\left(g_o\right) \end{array}\right\} \end{gathered} \] 同时检验候选父本和候选母本的公式如下 \[ \begin{gathered} L\left(H_1\right)=P\left(g_{a m}\right) P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^3 T\left(g_o \mid g_{a m}, g_a\right) \\ +\varepsilon(1-\varepsilon)^2\left[T\left(g_o \mid g_{a m}\right)+T\left(g_o \mid g_a\right)+P\left(g_o\right)\right] \\ +\varepsilon^2(1-\varepsilon) 3 P\left(g_o\right) \\ +\varepsilon^3 P\left(g_o\right) \end{array}\right\} \\ L\left(H_2\right)=P\left(g_{a m}\right) P\left(g_a\right)\left\{\begin{array}{l} (1-\varepsilon)^3 P\left(g_o\right) \\ +\varepsilon(1-\varepsilon)^2 3 P\left(g_o\right) \\ +\varepsilon^2(1-\varepsilon) 3 P\left(g_o\right) \\ +\varepsilon^3 P\left(g_o\right) \end{array}\right\} \end{gathered} \]

参考文献

Marshall, TC, Slate, J, Kruuk, LEB & Pemberton, JM (1998) Statistical confidence for likelihood-based paternity inference in natural populations. Molecular Ecology 7: 639-655.
Kalinowski, ST, Taper, ML & Marshall, TC (2007) Revising how the computer program CERVUS accommodates genotyping error increases success in paternity assignment.

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！