新闻动态
智造新闻 发表文章 会议资讯

玩转stLFR丨生信分析流程全揭秘

2019-06-14


stLFR以其强大的虚拟隔离共标记技术(Virtual Co-Barcoding),通过单管操作就能轻松的获得基因组长片段信息。为了能高效的利用庞大的barcode信息,华大智造生信开发团队针对stLFR数据结构特点开发一款全新、自动化的stLFR数据分析工具。免费获取方式为:https://github.com/MGI-tech-bioinformatics/stLFR_v1.1

1. stLFR数据分析工具示意图。

(从下机数据开始,依次进行barcode拆分、低质量数据过滤、基因组比对、SNP/INDEL检测、单倍体组装、CNV检测和SV检测,最终得到stLFR数据报告)


数据展示

通过对2NA12878数据结果来介绍stLFR数据分析工具的报告内容,详细展示工具能提供什么结果。

Co-Barcode聚类分析

利用DNA分子共标签技术,华大智造stLFR文库制备试剂盒能获取较好的长片段文库。那么在实际stLFR数据中的表现将通过三个图表展示。

2. stLFR数据的barcode分布、覆盖。

每个barcode连接的片段数目(a, b)、每个片段的覆盖度(c, d)、每个片段的长度分布(e, f

3. stLFR数据深度覆盖、插入片段、GC bias示意图。

stLFR数据深度分布图(a)、累积深度分布图(b)、插入片段分布图(c)及GC bias示意图(d)。


单倍体组装

作为stLFR技术的重点之一,工具使用HapCUT2软件进行单倍体组装分析,得到较好的基因组组装结果。两个stLFR样品的单倍体组装的最大N50达到15Mphasing rate99%+

1. stLFR数据单倍体组装统计

染色体

T0001-2

T0001-4

Switch rate

N50

Phasing rate

Switch rate

N50

Phasing rate

1

0.0098

6,012,525

99.82%

0.0099

7,203,376

99.83%

2

0.0004

8,066,973

99.87%

0.0004

12,434,593

99.85%

3

0.0005

8,618,950

99.90%

0.0005

6,233,405

99.90%

4

0.0104

5,729,259

99.88%

0.0105

9,066,777

99.87%

5

0.0098

6,725,647

99.90%

0.0099

9,571,060

99.89%

6

0.0106

7,644,767

99.90%

0.0107

8,810,819

99.88%

7

0.0038

6,663,634

99.87%

0.0038

7,858,180

99.85%

8

0.0092

5,189,893

99.88%

0.0093

6,643,768

99.87%

9

0.0100

8,905,613

99.73%

0.0099

7,147,435

99.67%

10

0.0046

9,189,953

99.89%

0.0045

10,304,910

99.88%

11

0.0109

9,111,332

99.88%

0.0111

9,650,259

99.90%

12

0.0005

6,031,100

99.87%

0.0003

9,561,399

99.89%

13

0.0005

9,928,540

99.92%

0.0005

11,438,457

99.90%

14

0.0006

5,249,922

99.84%

0.0005

7,533,475

99.88%

15

0.0008

5,245,452

99.78%

0.0007

6,299,999

99.73%

16

0.0004

10,946,109

99.85%

0.0005

13,070,565

99.88%

17

0.0005

4,343,525

99.83%

0.0004

4,343,525

99.82%

18

0.0093

7,155,753

99.93%

0.0094

12,886,313

99.93%

19

0.0138

7,781,865

99.93%

0.0139

15,193,578

99.89%

20

0.0004

13,475,627

99.93%

0.0003

7,030,408

99.92%

21

0.0004

7,205,559

99.85%

0.0004

9,724,771

99.88%

22

0.0111

10,422,522

99.81%

0.0109

13,163,868

99.86%

X

0.0007

2,506,710

99.67%

0.0008

3,069,697

99.64%

Genome

0.0056

6,653,785

99.86%

0.0056

7,766,036

99.85%

全基因组范围N50达到7.8Mphaseing rate99.8%

CNVSV检测

利用分子标签和长片段信息,stLFR可以对多种结构变异进行准确检测。华大智造stLFR数据分析工具中使用全新的CNVSV分析软件进行结构变异检测。

2. stLFR数据的CNV检测结果

T0001-2

T0001-4

#DEL

783

778

Min_DEL

1,000

1,000

Max_DEL

691,091

690,891

Mean_DEL

7,874

7,729

Total_DEL

6,165,414

6,013,168

#DUP

110

103

Min_DUP

1,200

1,200

Max_DUP

358,615

485,023

Mean_DUP

28,186

29,149

Total_DUP

3,100,523

3,002,367

3. stLFR数据的SV检测结果。上方为SV中简单类型列表,下方为SV中复杂类型列表。

SNP/INDEL检测

这一部分简单归纳了stLFR数据在SNP/INDEL上的检测结果,为客户后续深入分析提供基础。

4. stLFR数据的SNP/INDEL检测结果。

Sample

T0001-2

T0001-4

Total_SNP

3,751,967

3,751,478

dbSNP_rate

99.40%

99.40%

Novel_SNP

22,683

22,450

Novel_SNP_Rate

0.60%

0.60%

Ti/Tv

2.04

2.04

Total_INDEL

855,874

853,589

dbINDEL_Rate

84.97%

85.15%

因展示数据是NA12878样品,因此使用NA12878的变异标准集进行变异评估。

4. SNP/INDEL评估结果

两个NA12878 stLFR样品的SNP SensitivityPrecision都达到99%+INDELSensitivity也在92%+

基本数据统计

以表格展示了样品的数据信息,包括数据量、stLFR文库中barcode组合及实际数据中barcode拆分统计、拆分后有效数据的比对率、重复率、深度、基因组覆盖度、平均插入片段等关键信息;以图形展示了数据深度分布、GC bias、插入片段等数据信息(见图3)。

5. stLFR流程基本数据统计。

Sample name

T0001-2

T0001-4

Total barcode type

3,623,878,656

3,623,878,656

Barcode number

51,646,936

52,700,541

Barcode type rate

1.43%

1.45%

Reads pair number

794,472,074

786,248,806

Reads pair number(after split)

689,581,728

679,315,099

Barcode split rate

86.80%

86.40%

Mapping rate

99.82%

99.84%

Paired mapping rate

99.43%

99.44%

Mismatch rate

0.55%

0.59%

Duplicate rate

34.66%

29.79%

Total depth

52.96

52.42

Split barcode(G)

137.92

135.86

Dup depth

30.04

31.8

Average sequencing depth

29.77

30.3

Coverage

99.09%

99.08%

Coverage at least 4X

98.79%

98.77%

Coverage at least 10X

97.94%

97.93%

Coverage at least 20X

86.73%

87.90%

Mean insert size

268.35

265.64

运行资源

为说明需要,运行资源以30X人类基因组数据为标准。stLFR数据分析工具从原始数据输入开始,经过总计9个处理模块得到结果,分析处理一个30X数据量的stLFR样本总计需要2.5天,全程最大内存消耗为SV模块的60G,最大存储消耗为低质量数据过滤时的103G,最大时间消耗为比对去重模块的24.9小时,更具体的信息可看下方表格。

6. stLFR数据分析工具运行资源。

步骤

最大内存(G)

最大存储(G)

时间(h)

fq_BarcodeSplit

15

111

6

fq_Filter

4

103

9.5

fq_AlignSortMarkdup

10

60

24.9

bam_Split

1

60

0.7

bam_GATK

10

1.3

5.8

bamvcf_HaplotypeAssembly

15

2.8

2.5

bamvcfhap_CNV

15

10

2.6

bam_SV

60

10

5

report_Stat

8

0.1

2.6

总计

-

307

59.6

处理约30X人类基因组数据量的stLFR样品需要总计约307G硬盘存储、60G运算内存、2.5天时间。

运行命令

stLFR数据分析工具需在Linux环境运行,自Github下载获取软件并解压后可以取得直接运行的运行程序stLFR,直接运行程序可以查看帮助信息。

1. stLFR

2. Usage:

3. perl stLFR [options]

4.

5. Arguments:

6. sample.list

7. List of input.

8.

9. Format: "sample path [ barcode ]"

10.

11. If one sample have 2 lanes of fastq, there should be two lines in the fqlist file for this sample.

12. There are at least 2 columns separated by blank(s) or tab(s) in each line:

13. the 1st column is sample name, no blank or chinese character, required

14. the 2nd column is the lane path of fastq files, must contain *_1.fq.fqStat.txt, required

15. the 3rd column is the barcode positions [ 101_10,117_10,133_10 ]

16.

17. Options:

18. --outdir

19. Output path. [./]

20.

21. --ref

22. Human reference version . [hs37d5]

23.

24. --cpu <70>

25. CPU number. [70]

26.

27. --help|-h

28. Print this information.

主程序必要参数只有一个,即样品信息列表(sample.list),其中以最少2列的形式写明样品及下机数据路径。

软件列表

软件

版本

Linux

不限

Perl

V5.26.1

SOAPnuke

1.5.6

BWA

0.7.17-r1198-dirty

samtools

1.3 (using htslib 1.3)

java

1.8.0_101

Picard

2.0.1

GATK4

4.0.3.0

bgzip

1.5

tabix

1.3.1

python

2.7.14

bcftools

1.2

HAPCUT2

-

python3

3.6.3

光看不过瘾,下载Demo数据尝试一下吧

以上演示的demo数据已上传CNSA,可免费下载:T0001-2T0001-4

样品

T0001-2

T0001-4

Slide

V300014293B

Lane

L01

L02

L03

L04

物种

NA12878

建库方法

stLFR

试剂盒版本

MGIEasy stLFR 文库制备试剂盒V1.0

测序仪

MGISEQ-2000

测序时间

2019-01-29

测序模式

PE100

数据量(G

78.70

80.19

79.02

78.23

Q20%

91.92

92.09

91.46

91.67

Q30%

81.33

81.78

80.70

81.03

GC%

42.70

42.70

42.90

42.80

CNSA编号

CNX0045104

CNX0045105

CNX0058543

CNX0058544



以上演示的2个demo数据产自MGISEQ-2000平台,数据已上传至CNSA,可免费下载

T0001-2:ftp://ftp.cngb.org/pub/CNSA/CNP0000387/CNS0057111/

T0001-4:ftp://ftp.cngb.org/pub/CNSA/CNP0000387/CNS0094773/


参考文献

[1] Wang O et al: Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing, haplotyping, and de novo assembly. Genome Res 2019, 29(5):798-808.



4000-966-988客服电话
在线留言在线留言

微信关注 微信关注