一般来说 Plink 文件中的SNP顺序并不影响任何操作,如果有必要的话,可以通过下面这个代码以指定SNP顺序调整plink文件。
阅读更多...规整某类基因型数据R代码与python代码实现
这个是规整某类格式”不规范“的基因型数据的脚本实现说明,同时采用了 R 和 python 进行实现。
这个需求实现起来说难不难,说易不易,仅是为了将下面我要提到的这类下机的基因型数据转变为常用的plink格式。这里的两个代码可能本身对其他人无法直接使用,但是还是有些借鉴作用。
阅读更多...根据ID提取文件中相应行的python脚本实现与详细讲解
这个代码是一个处理数据入门级别的 python 脚本,我尽可能详细地解释一下,方便小白入门。
这个代码目的是根据提供的ID文件从大文件中提取这些ID的行,生成一个新的文件, 与 Excel 的 vlookup
函数功能相似,优点是自动化。另外Excel 处理大数据会卡,甚至卡死,这时必须要用代码。
两个Plink文件同一SNP基因型比对代码实现
本软件是两个Plink文件样本间基因型比对代码实现的另一种比对角度, 前面的思路是在比较两个基因型文件中,同一个样本之间有多少位点不一致,这里是比较同一个SNP有多少样本的分型不一致。在比对同一个群体的两个plink文件时,如果存在不一致,这两种比对角度都是必需的。
阅读更多...两个Plink文件样本间基因型比对代码实现
本软件对两个plink文件中的样本的共同的SNP位点进行比对,可以应用于同一群体不同处理之后得到的基因型文件的比对(例如比较不同的填充方式得到的plink文件)。
前提条件为,两个map的染色体、SNP名称及物理位置必须保持一致。
阅读更多...基于芯片数据的亲子鉴定分析代码
本软件通过利用SNP信息根据孟德尔错误位点比例,对于系谱中均具有基因型的亲子对进行亲子鉴定,判断系谱是否正确。这里的孟德尔错误位点指个体和亲本之间具有相反的纯和子的位点(例如个体的基因型为AA,亲本的基因型为GG),依据孟德尔定律亲子间不应存在这种情况,但由于突变和分型错误等原因,真实的亲子对之间仍存在少量的孟德尔错误位点。当使用的位点数目较多时,通过设定一个合理的阈值可以明确判定系谱中正确的亲子关系和错误的亲子关系。
阅读更多...Unsupervised Learning
ISL 真是好书!
阅读更多...Support Vector Machines
ISL 真是好书!
阅读更多...