新浦京81707con > 功能介绍 > 扩增子分析解读6进化树,扩增子分析解读5物种注

原标题:扩增子分析解读6进化树,扩增子分析解读5物种注

浏览次数:88 时间:2019-12-22

扩大与扩展子解析解读6演变树 Alpha Beta三种性,阿尔法beta

深入深入分析前希图

# 进入工作目录
cd example_PE250

上大器晚成节回看:大家的OTU得到了物种注释,并学习OTU表的各类操作————增多音信,格式转变,筛选消息。   接下来大家学习对OTU系列的发展解析、同一时候计算Alpha和Beta二种性值。   16. 前行树创设演变树是基于多种类比对的结果,可兆示丰富的音信,我们就要RAV4绘图中详尽解读。此处只是建树,用于Alpha, Beta各个性深入分析的输入文件。

# clustalo多序列比对,如果没有请安装Clustal Omega
clustalo -i result/rep_seqs4.fa -o temp/rep_seqs_align.fa --seqtype=DNA --full --force --threads=30
# 筛选结果中保守序列和保守区
filter_alignment.py -i temp/rep_seqs_align.fa -o temp/  # rep_seqs_align_pfiltered.fa, only very short conserved region saved
# 基于fasttree建树
make_phylogeny.py -i temp/rep_seqs_align_pfiltered.fasta -o result/rep_seqs.tree # generate tree by FastTree
  1. Alpha七种性 Alpha各类性是总括样本内物种组成,包罗数据和丰度两维音讯。具体解释可以见到:扩大与扩张子图表解读1箱线图:Alpha多种性   Alpha多种性总括前需求对OTU表张开规范,因为分化测序深度,检查测量检验到的物种数量会不一样。大家将OTU表重抽样至相符数据量,以公正比较各种板的物种数量。方法如下:

    # 查看样本的数据量最小值 biom summarize-table -i result/otu_table4.biom # 基于最小值进行重抽样准绳single_rarefaction.py -i result/otu_table4.biom -o temp/otu_table_rare.biom -d 2797 # 总括常用的各个Alpha七种性指数 阿尔法_diversity.py -i temp/otu_table_rare.biom -o result/alpha.txt -t result/rep_seqs.tree -m shannon,chao1,observed_otus,PD_whole_tree

  2. Beta三种性 Beta三种性是计量各种板间的千篇一律或不一致,OTU表也亟需标准。接纳重抽样形式错失的消息太多,不便于计算。此步我们筛选CSS标准化方法。

    # CSS标准化OTU表 normalize_table.py -i result/otu_table4.biom -o temp/otu_table_css.biom -a CSS # 转变标准化OTU表为文本,用于前期绘图 biom convert -i temp/otu_table_css.biom -o result/otu_table_css.txt --table-type="OTU table" --to-tsv # 删除表格多余新闻,方便途乐读取 sed -i '/# Const/d;s/#OTU //g;s/ID.//g' result/otu_table_css.txt # 计算Beta多样性 beta_diversity.py -i temp/otu_table_css.biom -o result/beta/ -t result/rep_seqs.tree -m bray_curtis,weighted_unifrac,unweighted_unifrac # Beta多种性间隔文件整合治理,方便ENVISION读取 sed -i 's/^t//g' result/beta/*

Alpha Beta七种性,阿尔法beta 深入分析前酌量 # 步入职业目录cd example_PE250 上风姿洒脱节回看:大家的OTU拿到了物种注释,并学习...

扩大与扩大子解析解读7物种分类总计 筛选演变树和别的,扩大与扩大物种

浅析前策画

# 进入工作目录
cd example_PE250

上风流倜傥节回看:大家获得了OTU体系的蜕变深入分析、同期计算Alpha和Beta多种性值。   本节是终极生龙活虎节,我们对物种进行归类总括,筛选高丰度结果用于衍变树体现,和任何用于Tiguan总计分析的结果生成

  1. 按物种分类品级分类集中OTU表中最重大的笺注音信是物种注释新闻。经常的物种注释新闻分为7个品级:界、门、纲、目、科、属、种。种是一点都不大的等第,和OTU相通但有不平等。 大家除了能够相比样板和组间OTU水平间距外,还是能够研商分歧相符品级上的不相同,它们是或不是留存那一个同台的变化规律。   依照注释的等第实行归类聚焦,不论是Excel还本田CR-V操作起来,都以很劳累的历程。这里大家运用QIIME自带的脚本summarize_taxa.py。

    # 结果按门、纲、目、科、属三个等级进行归类集中,对应结果的L2-L6 summarize_taxa.py -i result/otu_table4.biom -o result/sum_taxa # summary each level percentage # 改过一下文书表头,符合揽胜极光读取的表格格式 sed -i '/# Const/d;s/#OTU ID.//g' result/sum_taxa/* # format for PRADO read # 以门为例查看结果 less -S result/sum_taxa/otu_table4_L2.tx

以门为例,大家看出样板的OTU布满在拾九个门,及各样门在各个板中的绝比较例。其它的各等第,客户自个儿看呢。   那步的结果将用以中期计算和制图。   20. 筛选可显示的上进树 大家在篇章中见到二种理想的演变树,不过OTU平日成都百货上千,假若直白突显是素有看不清也是极不雅观的。 下边教大家有些家常的诀要来筛选数据,用于转移美丽的演化树。

# 选择OTU表中丰度大于0.1%的OTU
filter_otus_from_otu_table.py --min_count_fraction 0.001 -i result/otu_table4.biom -o temp/otu_table_k1.biom
# 获得对应的fasta序列
filter_fasta.py -f result/rep_seqs.fa -o temp/tax_rep_seqs.fa -b temp/otu_table_k1.biom 
# 统计序列数量,104条,一般100条左右即有大数据的B格,又能读懂和更清规律和细节
grep -c '>' temp/tax_rep_seqs.fa # 104
# 多序列比对
clustalo -i temp/tax_rep_seqs.fa -o temp/tax_rep_seqs_clus.fa --seqtype=DNA --full --force --threads=30
# 建树
make_phylogeny.py -i temp/tax_rep_seqs_clus.fa -o temp/tax_rep_seqs.tree
# 格式转换为R ggtree可用的树
sed "s/'//g" temp/tax_rep_seqs.tree > result/tax_rep_seqs.tree # remove '
# 获得序列ID
grep '>' temp/tax_rep_seqs_clus.fa|sed 's/>//g' > temp/tax_rep_seqs_clus.id
# 获得这些序列的物种注释,用于树上着色显示不同分类信息
awk 'BEGIN{OFS="t";FS="t"} NR==FNR {a[$1]=$0} NR>FNR {print a[$1]}' result/rep_seqs_tax_assignments.txt temp/tax_rep_seqs_clus.id|sed 's/; /t/g'|cut -f 1-5 |sed 's/p__//g;s/c__//g;s/o__//g' > result/tax_rep_seqs.tax
  1. 任何 此外皆今后生可畏对简便的格式转变,为前面总括深入分析而准备文件。

    # 将mappingfile调换为奥迪Q3可读的实验设计 sed 's/#//' mappingfile.txt > result/design.txt # 调换文本otu_table格式为R可读 sed '/# Const/d;s/#OTU //g;s/ID.//g' result/otu_table4.txt > result/otu_table.txt # 转变物种注释消息为制表符分隔,方便帕杰罗读取 sed 's/;/t/g;s/ //g' result/rep_seqs_tax_assignments.txt > result/rep_seqs_tax.txt

筛选衍生和变化树和其余,扩大与扩展物种 拆解分析前思考 # 走入工作目录cd example_PE250 上生机勃勃节回看:大家获取了OTU体系的进...

扩大与增添子分析解读5物种注释 OTU表操作,物种otu

本节课程,要求先造成《扩大与扩充子深入分析解读》连串在此之前的操作 1质控 实验设计 双端系列合併 2提取barcode 质量控制及样品拆分 切去扩大与增添引物 3格式调换 去冗余 聚类 4去嵌合体 非细菌种类 生成代表性系列和OTU表 深入分析前策动

# 进入工作目录
cd example_PE250

上风流倜傥节回看:大家上学了嵌合体的看着锅里的,以致基于参谋数据库去嵌合体;也学习了依照数据库比对来挑选细菌或细菌;最后依照最分明的OTU,我们转移代表性连串和OTU表,那是每一个德州仪器量测序皆有的结果,后续的结果将总体基于那五个文本。   接下来大家学习对OTU进行物种注释;OTU的操作,包涵格式转换、筛选加多物种信息、数据量筛选样板、筛选高丰度的OTU、物种筛选等。   OTU表常用的BIOM格式 主页: 。BIOM是斯拉维尼亚语The Biological Observation Matrix的缩写,汉语翻译为生物观测矩阵,是大器晚成种通过格式,用于生物学样本对应观测值的报表。它根本利用json/HD5F文件格式标准,即多维散列布局,保存表格布局数据结果。近年来主流的宏基因组软件均帮助此格式文件,如QIIME、MG-RAST、PICRUSt、Mothur、phyloseq、MEGAN、VAMPS、metagenomeSeq、Phinch、HavalDP Classifier、USEARCH、PhyloToAST、EBI Metagenomics、GCModeller、MetaPhlAn 2。知道它有多种要了吧。   Biom文件管理系统biom程序是QIIME的必装包,若无安装好,可尝试上面步骤重装

# 安装依赖包
pip install numpy
# 安装biom格式转换包
pip install biom-format
# 安装2.0格式支持
pip install h5py
# 测序程序是否安装成功
biom
  1. 物种注释 对于扩大与扩充子剖判,最主要的就是物种新闻。大家遵照上节深入分析获得的代表性种类,选取上次早已下载的greengene的参阅连串和物种注释音信,比对软件选用rdp方法,实行表明。

    # 物种注释 assign_taxonomy.py -i result/rep_seqs.fa -r gg_13_8_otus/rep_set/97_otus.fasta -t gg_13_8_otus/taxonomy/97_otu_taxonomy.txt -m rdp -o result

注:假诺是ITS/18S数码,提出数据库纠正为UNITE,方法改为blast。详细使用表达,请读官方文档   14. OTU表总计、格式转换、加多消息将OTU表转变为Biom格式,这样便于别的软件对其操作。可增进上边获得的物种音信,那样表格的消息就更拉长了,再退换为文本,便于人类可读,同时利用summarize-table查看OTU表的着力音信。

# 文本OTU表转换为BIOM:方便操作
biom convert -i temp/otu_table.txt 
 -o result/otu_table.biom 
 --table-type="OTU table" --to-json
# 添加物种信息至OTU表最后一列,命名为taxonomy
biom add-metadata -i result/otu_table.biom 
 --observation-metadata-fp result/rep_seqs_tax_assignments.txt 
 -o result/otu_table_tax.biom 
 --sc-separated taxonomy --observation-header OTUID,taxonomy 
# 转换biom为txt格式,带有物种注释:人类可读
biom convert -i result/otu_table_tax.biom -o result/otu_table_tax.txt --to-tsv --header-key taxonomy
# 查看OTU表的基本信息:样品,OUT数量统计
biom summarize-table -i result/otu_table_tax.biom -o result/otu_table_tax.sum

当今我们收获了OTU表的主干总计音讯,用less result/otu_table_tax.sum查看一下吗,内容如下:

Num samples: 27 # 样品数据
Num observations: 975 # OTU数据
Total count: 409647 # 总数据量
Table density (fraction of non-zero values): 0.464 # 非零的单元格
 
Counts/sample summary:
 Min: 2352.0 # 样品数据量最小值
 Max: 35955.0 # 样品数据量最大值
 Median: 14851.000 # 样品数据量中位数
 Mean: 15172.111 # 样品数据量平均数
 Std. dev.: 10691.823 # 样品数据量标准变异
 Sample Metadata Categories: None provided # 样品分类信息:末提供
 Observation Metadata Categories: taxonomy # 观察值分类:物种信息
 
Counts/sample detail: # 每个样品的数据量
OE4: 2352.0
OE3: 2353.0
OE8: 3091.0
OE2: 3173.0
OE1: 3337.0
OE5: 3733.0
OE6: 4289.0
OE9: 4648.0
OE7: 5185.0
WT3: 10741.0
WT8: 12117.0
WT6: 14316.0
WT2: 14798.0
WT7: 14851.0
KO1: 14926.0
WT9: 15201.0
WT1: 15422.0
WT5: 15773.0
WT4: 16708.0
KO2: 17607.0
KO6: 23949.0
KO5: 26570.0
KO8: 27250.0
KO4: 32303.0
KO7: 33086.0
KO9: 35913.0
KO3: 35955.0

biom的事必躬亲使用验证,能够biom查看具体的效能,如增多注释功效biom add-metadata --help可查看详细表达。也可观望官方网站  

  1. OTU表筛选实验中会有各样影响因素,大家要综合各类背景知识来决断什么筛选数据表,起到博采有益的意见,去粗取粗,就那样类推,有表及理的来解答纠结准确难点。数据筛选是会运营深入分析流程和数目深入分析师的分割线。   看上边包车型地铁的总结结果,样品数据量从2k-35k,大家应去除过小的数据量样本,提供更或然高的样本最低丰度的数量用于上游标准化深入分析。这里大家接纳只保留数据量大于3000的样板。

    # 按样板数据量过滤:选取counts>3000的样本filter_samples_from_otu_table.py -i result/otu_table_tax.biom -o result/otu_table2.biom -n 3000 # 查看过滤后结果:唯有二十五个样本,9柒十一个OTU biom summarize-table -i result/otu_table2.biom

再者还要过滤低丰度的OTU,日常低于相当之意气风发丰度的菌,在效果与利益商量或许还是相比较困难的(前期文章454测序数据量少,平日只关怀丰度千分之五之上的OTU卡塔尔(قطر‎。

# 按OTU丰度过滤:选择相对丰度均值大于万分之一的OTU
filter_otus_from_otu_table.py --min_count_fraction 0.0001 -i result/otu_table2.biom -o result/otu_table3.biom
# 查看过滤后结果:只有25个样品,346个OTU
biom summarize-table -i result/otu_table3.biom

多少琢磨花招在特定有试验中存在过错,如2011Nature报纸发表V5-V7在植物中扩大与增添会偏疼扩大与增添Chloroflexi菌门,提出删除。

# 按物种筛选OTU表:去除p__Chloroflexi菌门
filter_taxa_from_otu_table.py -i result/otu_table3.biom -o result/otu_table4.biom -n p__Chloroflexi
# 查看过滤后结果:只有25个样品,307个OTU
biom summarize-table -i result/otu_table4.biom

以上过滤条件是根据经历、相关文献设计的,若是不清楚,也实际不是随意过滤,轻便孳生假中性(neuter gender卡塔尔(قطر‎。   获得的末尾结果,还要转换为文本格式,和提取OTU表对应的队列,用于中游解析。

# 转换最终biom格式OTU表为文本OTU表格
biom convert -i result/otu_table4.biom -o result/otu_table4.txt --table-type="OTU table" --to-tsv
# OTU表格式调整方便R读取
sed -i '/# Const/d;s/#OTU //g;s/ID.//g' result/otu_table4.txt
# 筛选最终OTU表中对应的OTU序列
filter_fasta.py -f result/rep_seqs.fa -b result/otu_table4.biom -o result/rep_seqs4.fa

OTU表操作,物种otu 本节课程,须求先达成《扩大与扩张子解析解读》体系以前的操作1质量控制 实验设计 双端体系合并2提取...

本文由新浦京81707con发布于功能介绍,转载请注明出处:扩增子分析解读6进化树,扩增子分析解读5物种注

关键词: 新浦京81707con

上一篇:CentOS 6.5安装SVN 客户端TortoiseSVN

下一篇:没有了