短序列组装Sequence Assembly（转载）

阅读原文时间：2023年07月08日阅读：2

转载：http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html

短序列组装（Sequence assembly）几乎是近年来next-generation sequencing最热门的话题。简单来说，就是把基因组长长的序列打断(shotgun sequencing)，因为我们不知道基因组整条序列是如何排列（成一条链，最后成为一条染色体）组合（如何区分不同染色体）的，而我们又无法实现一次把整条长序列完整测序（现在有单子测序可能是一个新的sunlight)。然后，我们通过算法，计算机的帮助，把这些短的序列组装起来成为一条完整有序的序列。

就好比我们有这样一句话：

it
is just a hypothesis, so don't be seriously！

假设，我们现在不知道这句话到底是什么，就像我们有一个box，我们抽到一张纸，但没打开，我们把这张纸撕成pieces，当然可能还发生了变化，所有的空格和标点都消失了（魔术！）我们得到：

itis ypo stah the sodo eriou siss ju ntbes sly……

因为我们测了几次，为了增加覆盖度，这样我们能通过高覆盖度而提高置信度：

itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon
beser beser ssod iti sju……

另外，我们又发明了一种称作为paired-ends的序列测序方法，即两头定长，中间插入片段一定的序列，像这样：

iti*****ahyp
sju*****pot the*****don sod*****ser bes*****sly ……

这样我们根据如下图的方法，我们可以把这句话拼回来：

itisjustahypothesissodontbeseriously

但它不是最终结果，我们根据我们的现有的语法习惯，我们给它们加上空格（gap)和标点（遗漏的关键东西），我们能够还原原话！

第一：介绍一下组装的方法：