今天主要介绍安装转录组分析的软件与fastqc检测测序数据的质量。
conda软件安装
绝大多数软件的安装都可以通过conda来进行,能省很多事情,一些依赖的软件也会自动下载。我个人的大部分软件都是通过conda来进行的(文章最后放链接)。该软件安装在服务器下进行。
上传minconda3文件到账户的目录下。我不会放在账号创建的其他的文件夹下。比如(账号是lab425,文件就上传到进入账号时所在的文件夹下),如下图:
然后输入bash Miniconda3-la
看情况需要回车按回车,需要输入yes就输入yes。软件就装好了。如下图:
(账号前会有(base),如果没有就重新进下账号)。
添加频道
之后添加频道(简单理解:就是你要下载的软件从哪个网站寻找)。
命令行按照顺序输入:一共五个频道。
conda config --add channels ';
conda config --add channels ';
conda config --add channels ';
conda config --add channels ';
conda config --add channels 'r'
conda config --add channels ';
这是我安装的顺序,顺序决定优先从哪个网站寻找软件。最后添加的优先级最高。
添加过程中,可能会提示已经有这个频道,不用管。继续添加后面的频道。添加完成后,使用conda config --get channels来查看已经安装了哪些频道。
然后更新conda自身(我给的软件比较老)。命令:conda update conda
注:一般我在给新的账号装conda时,都会装一个老的,然后在更新conda自身。
创建环境并进入
在conda下创建一个转录组分析的环境,将用于转录组分析的软件安装在该环境下。
比如创建名为rnaseq的环境。命令:conda create --name rnaseq
然后提示输入Proceed ([y]/n)? 选择y就行了。
进入该环境:conda activate rnaseq。这是账号前的base会变成rnaseq。
(如果有两个甚至更多的环境,退出当前环境:conda deactivate,然后在conda activate 环境名)
安装软件
conda install 软件名即可。转录组分析的软件安装如下:
conda install fastqc trimmomatic samtools bcftools hisat2 subread
(注:fastqc trimmomatic hisat2 samtools subread共五个软件,另外conda安装的软件名都是小写形式的字母)
安装时提示输入Proceed ([y]/n)? 选择y就会自动安装。
fastqc检测测序文件
我当前的环境名为:all
查看软件的帮助信息,一般都是:软件 -h (或者-help --h --help)。不同的软件方法不同。
fastqc -h 查看帮助信息。自己看就可以了。
举例:我的测序数据是在/home/lab425/rnaseq/hsq/fastqc/
使用cd 进入该文件夹后,
fastqc -f fastq -t 2 T1_1.clean. T1_2.clean.(可以看看帮助信息的-t含义)
t后面的数字表示最多有多少个文件,我一般设置与后面接的测序文件数相等的数字。
成功运行。等待结果即可。
,会生成4个文件。将两个.html导出到自己的电脑双击查看即可(直接拖拽到自己电脑的屏幕即可)。
打开,我一般看第二行(Per base sequence quality),第五行(Per base sequence content),第六行(Per sequence GC content),最后一行(Adapter Content)。
第二行:
可以看到碱基质量大于等于32,质量很好(如果一个碱基出错的概率是0.001,那对应的Q值Q=-10log10)=30)。
第五行:
可以看到前8个碱基不平,具有一定的偏好性。这是因为reads刚开始测序时不稳定,会杂乱无章。就像普通PCR测序一样,前100bp的碱基很乱(印象是100bp,或者可能是150bp)。因此后续分析中会去除前8个碱基。
第六行:
看着可以,没有两个尖峰。
最后一行:
整个坐标都是0,没有接头序列。
结论:只需要去除每个reads前8个碱基即可。下节再说。
Minconda的安装文件
链接:
提取码:fkym