您的位置 首页 > 数码极客

‘如何查看测序结果’测序结果如何拼接…

上篇文章主要讲述了转录组测序的上传与检测完整性,今天的内容是如何远程连接服务器并且查看测序文件的结构。

补充上篇文章

一般做转录组测序都会做三个生物学重复。因为大多数老师都会让学生做重复,就忘记提了。但是为了文章能够完全面对零基础的读者们,还是补充一下比较好。

另外服务器IP的话,我实验室的服务器连接在路由器上,因此我直接查看路由器的设置,看看IP是啥。不知道自己服务器的IP的话,问下实验室管理服务器的人是谁就知道了。

RNA-seq分析流程

转录组测序数据的结构

当成功上传服务器之后,就需要远程连接服务器上进行后续的操作。远程连接的软件有很多,我个人用的远程连接软件是MobaXterm(。官方的网站,下载免费版安装即可。我就一直用的免费版的),因此这个软件可以在操作命令行的同时查看当前目录的文件。如下图:

这个是软件。

连接方式:

点击右上角菜单栏下面第一个Session,选择SSH。

Remote host:输入服务器IP。

Specify username :输入你的账号名。我的就输入hsq。

点击下面的OK。

然后出现下面界面(我的账号已经记住了密码,直接会进入命令行,下面的账号名叫qmh),让你输入密码。输入时界面是不会显示任何字符(防止他人看到),正常输入即可,回车就进入命令行模式。成功连接服务器。


转录组测序数据查看

首先服务器都是Linux系统,跟平时用的windows电脑不一样,切换文件夹不能使用鼠标。Linux切换命令行是cd。下图是我的主界面:

我的转录组测序在zhanshi这个文件夹中,我就输入cd zhanshi/。(cd后面是有个空格)

回车就进入zhanshi这个文件夹中,想回到上一级目录,就输入cd .. (两个点)。

更多关于相关的cd命令,百度一看就懂。

(小技巧:如果当前目录只有一个zhan开头的文件夹,输入cd zhan时直接按下TAB键,会自动补全。若只有仅一个z开头的,输入cd z时直接按下TAB键即可)


测序数据主要是的压缩文件。在Linux下,我一般查看文件的方式是cat 文件名|less -S(cat与less后各有一个空格),然后方向键上下左右看文件。如果想返回命令行,就按下q。而压缩文件一般使用zcat。比如我想查看s1_1.clean.这个文件,就输入zcat s1_1.clean. |less -S

就会显示下图。


测序文件中以4行文本作为一个reads的信息。

第一行:表示reads的ID名。

第二行:reads的序列,即(ATGC)。

第三行:+号(一般不管)。

第四行:reads的碱基质量。

我只关注第二行与第四行(一个碱基对应一个质量值,因此第二行与第四行的字母数完全相等)。

第二行是测序的碱基,这个没什么说的,是啥就是啥。

第四行是测序碱基的质量(即这个碱基测序准不准),用ACSII码表示。

关于第四行的碱基质量转换有点复杂。我只做简单说明,如果一个碱基出错的概率是0.001,那对应的Q值Q=-10log10)=30,如果测序质量值的体系是phred33,那在第四行的字母就是(30+33)对应的ACSII码为“?”。如果一个碱基出错的概率是0.01,Q值就是20,第四行的字母就是(20+33)对应的ACSII码为“5”。

目前高通量测序reads质量值有phred33体系和phred64体系(不同的测序公司不用的体系,大部分都是phred33),如何查看哪种体系使用如下命令。

zcat s1_1.clean. | head -1000 | awk '{if(NR%4==0) printf("%s",$0);}' | od -A n -t u1 | awk 'BEGIN{min=100;max=0;}{for(i=1;i<=nf;i++) i="">max) max=$i; if($i<min) min=$i;}}END{if(max<=74 && min<59) print="" else="" max="">73 && min>=64) print "Phred+64"; else if(min>=59 && min<64 max="">73) print "Solexa+64"; else print "Unknown score encoding!";}'

第三行显示是phred33体系。我目前见过的测序数据中(DNA重测序,转录组测序,甲基化测序)全部都是phred33体系。

关于介绍这个phred33体系的目的是:后续去除碱基时,软件需要选择是phred33还是phred64,所以就简单介绍下并且分享检测体系的代码。


一些题外话

首先关于下载软件与代码分享,一些官网的软件我仅仅放网站,大家稍微看下就能够下载,安装时不要不要不要选择C盘(只有R语言的软件我会安装在C盘),剩下的就是下一步下一步就可安装。一些不好下载的软件我会分享给大家。

我自己用的代码会直接放在文章中,大家都可以直接使用。关于学习代码部分来说,今天用的zcat s1_1.clean. |less -S这个命令来说,我只简单介绍了一下zcat,但是后面的竖线与less -S我并没有介绍(|:管道操作符,可以将|前的内容直接输入后less中,而less -S表示将内容进行单行展示,如果输入less -SN会同时展示行数),可以直接输入zcat s1_1.clean.,看看会怎么样(屏幕会不断刷新内容,这时按Ctrl+C 就会终止)。以后如果没有介绍|与less -S这种类似的代码含义,大家可以直接百度查看。而我会展示我自己的习惯(我查看文件一般都是用cat 文本名|less -S 或者 zcat 文本名|less -S)。因为我也不可能把所有的命令参数介绍完,只介绍我个人的习惯就可以了。


本节先介绍到这里,下节会介绍如何安装生物数据分析的软件以及fastqc软件检测测序文件。fastqc检测测序文件本节并没有介绍,因为忘了还需要告诉你们如何安装软件。

更多内容请关注微信公众号:生信分析实验室

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“如何查看测序结果,测序结果如何拼接,如何分析测序结果,如何查看测序结果和自己的扩增结果,如何看测序结果是否正确”边界阅读