All tags ChIP ChIP-Seq 数据分析分步指南网络研讨会

ChIP-Seq 数据分析分步指南网络研讨会

了解如何结合不同的在线工具执行常规的 ChIP-seq 数据分析

不熟悉 Unix 操作系统?通过本介绍,您可以了解 ChIP-seq 数据集的形式以及通过 ChIP-seq 实验可提取的结果类型。

非常适合刚开始从事生物信息学及在实验室实际操作的生物学家。

Watch webinar

​​

​​​网络研讨会主题:

​​

  • 测序读段 QC
  • 读段比对:在参考基因组中定位测序读段
  • 峰检测:寻找目标蛋白的结合位点
  • 数据可视化
  • De novo 基元查找、结合位点的基因本体分析以及热图生成


主讲人信息:

Xi Chen 在中国北京大学医学部完成了本科阶段的学习,然后在曼彻斯特大学 Andy Sharrocks 教授的实验室取得了博士学位,研究内容是利用传统生化分析方法和最尖端的基因组方法研究若干叉头转录因子的 DNA 结合特异性。

Xi 目前在欣克斯顿 EBI 和 Sanger 研究中心 Sarah Teichmann 博士的实验室任博士后。他的研究重点是通过整合 TF 结合位点数据和基因表达数据,探索转录因子如何控制小鼠辅助性 T 细胞的关键决定。



网络研讨会记录:

大家好。欢迎参加 Abcam 的 ChIP-Seq 数据分析分步指南网络研讨会。今天的主讲人是 Xi Chen,现任欣克斯顿 EBI 和 Sanger 研究中心 Sarah Teichmann 博士实验室的 博士后。Xi Chen 在中国北京大学医学部完成了本科阶段的学习,然后在曼彻斯特大学 Andy Sharrocks 教授的实验室取得了博士学位,研究内容是利用传统生化方法和最尖端的基因组方法研究若干叉头转录因子的 DNA 结合特异性。他的研究重点是通过整合 TF 结合位点和基因表达数据探索转录因子如何控制小鼠辅助性 T 细胞的关键决定。

Abcam 的细胞测定产品经理 Miriam Ferrer 今天将和 Xi 一起演讲。Miriam 拥有巴塞罗那大学的生物学学位和阿姆斯特丹自由大学的博士学位,博士毕业后,她加入了剑桥的 MRC 分子生物学实验室。下面我将把时间交给 Xi,网络研讨会即将开始。Xi?

XC:感谢 Vicky 的介绍,感谢参加网络研讨会的各位。其实这个网络研讨会更像是介绍如何进行 ChIP-seq 数据分析的技术教程,尤其是对于那些编程及相关学习经验较少的实验室工作的生物学家。它对于将来需要进行 ChIP-seq 数据分析的生物信息学初学者同样会有帮助。本网络研讨会从您已经获得了原始的测序读段文件开始,通常是 FastQ 文件,而且我们将只涉及 Illumina® 平台的测序数据。下面我将演示如何根据参考基因组进行读段比对或定位,如何通过峰检测识别目标蛋白的富集区域,如何寻找在结合区域富集的 DNA 基元,以及如何找到结合位点所对应的基因并获取富集基因组本体论信息以探索潜在的生物学功能。通过该网络研讨会,观众们将对 ChIP-seq 数据集的形式以及利用 ChIP-seq 数据所能获得的信息有一个大致的概念。

首先,我概括地介绍一下此次网络研讨会的内容。我们将介绍通过使用这页幻灯片中所列的软件进行所有常规 ChIP-seq 基础分析。这些软件要么像 Galaxy 和 GREAT 一样采用基于网页的界面,要么像 FastQC 和 seqMINER 一样拥有图形用户界面,因此用户无需具有命令行经验。

我们这里使用的数据集来自 FOXA1 ChIP-seq 实验。FOXA1 是一种叉头转录因子,是首批用来进行 ChIP 基因组测序的转录因子之一。我们将并列比较成功的 FOXA1 ChIP-seq 实验与失败的 FOXA1 ChIP-seq 实验。左侧为成功的 FOXA1 ChIP-seq 数据,来自 MCF7 乳腺癌细胞系,由 Jason Carroll 的实验室发表于《Nature Genetics》。在这篇文章中,作者发现 FOXA1 是乳腺癌细胞中雌激素受体 DNA 结合及保持活性的绝对必要条件。

右侧为失败的数据,来自 LoVo 大肠癌细胞系,由 Jussi Taipale 的实验室发表于《Cell》。在这篇文章中,作者发现转录因子的结合倾向于以大量成簇的方式发生,并且大部分基因簇具有内聚性。该实验室进行了数百种转录因子的 ChIP-seq 实验,FOXA1 是其中之一。但是,FOXA1 ChIP-seq 数据集未通过作者的 QC 标准,因此作者将该实验认定为失败的实验。这为我们了解失败的实验提供了一个理想的契机,有时失败的实验其实更具价值;同时我们也要感谢作者公开这部分数据。

现在我们将使用一款名为 FastQC 的软件对测序读段进行 QC 分析。该软件由Babraham Institute开发,您可以通过幻灯片上方的网站下载。如您所见,FastQC 的运行的是交互式的,因此您只需单击鼠标就可以轻松定位测序读段并将它们载入 FastQC。我们看到这里有四个文件:其中两个是 FOXA1/MCF7 数据集,另外两个是 FOXA1/LoVo 数据集。每种数据集都有相应的 FOXA1 ChIP 样品和对照样品。在 MCF7 数据集中,对照样品为 input 对照,而 LoVo 数据集中采用的是 IgG 对照。

使用 FastQC 加载文件后,您将看到幻灯片中部所示的内容。它提供了许多测序读段 QC 指标。FastQC 的功能不仅限于本次网络研讨会所涉及的这些,我们不会逐项介绍该程序中的全部指标。在这里我们仅关注三个指标:

第一个是基础统计数据,它包括与测序读段相关的一些基本信息,如读段长度和总的读段数量。在这里,最重要的应该是编码信息,通过它我们可以知道测序读段的质量评分以及编码方式。FOXA1/MCF7 实验由 Sanger/Illumina® 1.9 编码,FOXA1/LoVo 实验由 Illumina® 1.5 编码。稍后我们将用到该信息,到时候我们会回到这部分内容。

第二个指标是读段质量。在这张图中,X 轴表示读段中的所有单个碱基。每个碱基的 Y 轴都位于所有读段中这一特定碱基质量评分分布曲线的上方。黄色柱形图表示 26-76% 区间,红线表示中位数,而蓝线则表示质量评分平均数。质量评分远高于 20 则为良好碱基。右侧的 FOXA1/LoVo 数据的质量评分在读段末尾处迅速降低。这种情况下您可能需要在进行下游分析之前将最后一个碱基甚至是后五个碱基去掉。为简单起见,本次网络研讨会我们不进行该操作。

下一个指标是序列重复水平。该指标可显示您的读段在文库中的独特程度,同时也能检验文库复杂度。由于测序具有随机性,我们希望看到的是大部分测序读段仅出现一次,类似左侧的 FOXA1/MCF7 数据。但在右侧的 FOXA1/LoVo 数据中,大部分读段都出现了两次,还有很多出现了四次。唯一测序读段的总量显示于图上方。FOXA1/MCF7 数据中的唯一序列占 70% 以上,而 FOXA1/LoVo 的唯一测序读段仅为 44% 左右。FOXA1/LoVo 数据集中的读段总数为 4800 万,因此 44% 表示约有 2100 万的独有读段,事实上这个数据是可接受的。现在需要强调的是,FastQC 结果只能指示您的测序质量,而无法指示 ChIP 实验是否成功。这就是我们接下来要做的工作。

现在我们对测序质量已经有了大体了解,可以将读段与参考基因组进行比对了。我们将使用 Galaxy 平台的 Bowtie 来完成该项工作。Galaxy 是一款集成了多种生物信息学工具的用户友好型在线系统。在 Galaxy 网站 usegalaxy.org 上注册并登陆之后,您需要将您的 FastQ 文件上传至 Galaxy 服务器。一般情况下,您只需单击左侧“get data”选项卡下的“upload file”。您可以从计算机中选择要上传的文件。但这里需要注意的是,过大的文件无法通过浏览器上传,因此您最好通过 Galaxy FTP 上传 FastQ 文件。

任何 FTP 客户端都可执行该操作。这里我以 FileZilla 为例。在 host 一栏填入 Galaxy 网站地址 usegalaxy.org。用户名是您在 Galaxy 网站上注册时所使用的电子邮箱地址,然后输入密码。单击“quick connect”之后,即可在下方看到相关登录信息,提示您已成功连接到 Galaxy FTP。左侧所示为本地计算机中的文件,右侧所示为您上传到 Galaxy FTP 中的文件,目前 FTP 中还没有上传文件。现在只需在左侧定位到计算机中的 FastQ 文件,然后将其拖拽至右侧即可开始上传。另外,建议您不要对 FastQ 文件进行操作以节省上传时间。当然上传速度不会像本地网络一样快,但还是不错的。上传完成后,上传成功的文件将出现在右侧。

之后您再访问 Galaxy 网站时,刚刚上传的文件就会出现在中间。

接下来我们就可以将文件从 FTP 上传至 Galaxy 服务器了。仅需勾选要上传的文件,然后在文件格式下拉菜单中选择正确的文件格式。我们的文件是 FastQ 文件,但您会发现这里有四种不同的 FastQ 文件格式。FastQ CS Sanger 格式适用于彩色空隙 SOLiD 测序平台,我们在此次研讨会不涉及。所以我们需要在 FastQ Illumina®、FastQ Sanger 和 FastQ Solexa 格式中选择。

这三种 FastQ 格式的主要区别在于它们编码测序质量的方式。FastQ Sanger 格式采用 Phred 评分来表示测序质量,它使用 Phred 评分的 ASCII 流加上 33 来编码质量评分。使用 Illumina® pipeline 1.8 及以上版本获得的 FastQ 文件采用这种编码方式。我稍后将具体介绍这句话的含义。如果是近期进行的测序实验,那么您的 FastQ 文件格式很有可能是 FastQ Sanger 格式的。

FastQ Illumina® 格式也使用 Phred 评分,但它使用 Phred 评分的 ASCII 流加上 64 来编码质量评分。使用从 Illumina® pipeline 1.3 开始到 1.8 之前的版本获得的 FastQ 文件都是这种格式。如果您对之前提到的 FastQC 结果还有印象,其中 FOXA1/LoVo ChIP 样品是通过 Illumina® pipeline 1.5 获得的,因此它的文件格式应该是 FastQ Illumina® 格式。其余三个样品均通过 Illumina® pipeline 1.9 获得,因此它们的格式应该是 FastQ Sanger 格式。

FastQ Solexa 所采用的系统与代码质量评分系统不同,您的数据文件不太可能是这种格式,除非您分析的是某些很久以前的 Solexa 数据。更多相关信息可参见下方来自 NAR 的文章和维基百科页面。

现在我们勾选文件并选择正确的格式。单击“Execute”按钮。然后文件将从 FTP 上传至 Galaxy 服务器。上传完成后,文件将以绿色背景显示在界面的右侧。

如果单击此处的眼睛图标按钮,您将会在中间栏看到文件内容。我们以 FOXA1/MCF7 数据为例。FastQ 文件基本上是简单的文本文件,每个测序读段都以四行文本表示。该样品拥有约 2700 万条读段,因此该文件中有 108,000,000 行文本。

我们来看一下顶部黑框中显示的一条读段的详细信息。第一行是读段名称,必须以字符 @ 开头。第二行是读段的实际 DNA 序列。第三行没有意义,但必须以加号开头,并且只有加号是必须的,该行的其余内容均为可选。由于数据来源于SRA,因此您可以看到这一行与第一行的内容除起始字符外都相同。大部分 FastQ 文件中每个读段的第三行都只有一个加号字符。这样可以缩小文件,节省存储空间。第四行是对每个碱基的质量评分进行编码得到的 ASCII 流。

这是一张可通过网络轻松获取的 ASCII 表,我们来查看一下该读段的各个碱基。该读段的第一个碱基是 A,该碱基的质量字符串为 B。查询 ASCII 表可知字符串 B 的 ASCII 码是 66。由于该读段是 FastQ Sanger 格式的,因此 Phred 评分应该是 66 减去 33,即 33。Phred 评分 33 表示该碱基出错率为 0.0005。

该读段的第二个碱基是 G,该位置的质量流为字符 @。再次查询 ASCII 表,可找到字符 @ 对应的 ASCII 码为 64,所以该位置的 Phred 评分为 64 减去 33,即 31。Phred 评分 31 表示该碱基出错率为 0.0008。您可以按此方法自己检查该读段中的每个碱基,这基本上就是从 FastQ 文件中读取和解析数据的方法。

现在我们要使用 Bowtie 将测序读段与基因组进行比对,但 Galaxy 中的 Bowtie 软件只支持 FastQ Sanger 文件,因此我们需要将 FOXA1/LoVo ChIP 文件从 FastQ Illumina® 格式转换为 FastQ Sanger 格式。具体操作是在左侧的“NGS QC and manipulation”选项卡中选择 FastQ Groomer。然后在中间栏选择要转换的文件及其输入格式,然后单击“Execute”。转换完成后,文件将以绿色背景出现在右侧,您可以单击铅笔图标按钮对其进行重命名以赋予其特定含义,就像这样。

到这里,我们就可以开始根据参考基因组对测序读段进行比对或定位。接下来我们将使用 Bowtie 程序,所以单击左侧“NGS:Mapping”选项卡中的“Map with Bowtie for Illumina®”。然后在中间栏选择参考基因组。在本例中,因为两个实验的样品均为人类细胞,因此我们选择 hg19,它虽然不是最新的但却是稳定的人类参考基因组。选择您需要定位的 FastQ 文件,然后在 Bowtie 设置中选择“Full parameter list”,接下来系统将为您提供多个选项。我们保留每个选项的默认设置,只把“–m”项改为“1”。这是代表什么意思呢?简单地说,某些读段能够定位到基因组的多个位置,您可以根据需求对这部分读段进行不同的处理。但我们将这里设为 1,表示简单地去除了此类读段。这种方法适合初学者,而且实际上许多人在分析 ChIP-seq、DNA-seq 和 ATAC-seq 等 DNA 中心测序数据时仍然会采用这种方法。

然后对另外三个文件进行同样的操作,完成后的文件将以绿色背景出现在右侧。如您所见,我已经对它们进行了重命名。

同样地,您可以单击眼睛图标按钮查看输出比对文件的内容。Bowtie 输出的比对文件称为 SAM 文件。SAM 文件也是简单的文本文件,每行文本代表一个读段,包含读段的基因组定位信息和其他信息。有关 SAM 格式文件的详细信息请参见幻灯片上方的 PDF 链接。

完成定位后,我们现在要执行峰检测以识别 FOXA1 结合位点。但此时的 SAM 文件中同时包含了已定位和未定位读段。执行峰检测只需要已定位读段,因此我们需要移除所有未定位读段。为此我们需要使用左侧的 SAM 工具。单击“Filter SAM or BAM”,然后在中间栏选择要进行筛查的文件,并将“Filter on bitwise flag”设为“yes”,之后系统将为您提供更多选项。从“Skip alignment with any of these flag bits set”中选中“The read is unmapped”,这样工具就会移除所有未定位的读段。完成之后,输入的文件将以绿色背景出现在右侧,这里我已经对它们重命名为有意义的名称。默认情况下,SAM 工具的输出格式为 BAM 文件。BAM 文件是二进制文件而不是文本文件,因此无法查看文件内容。您可以简单地将 BAM 文件视为压缩的 SAM 文件,它大大地缩小了文件。

现在,我们就可以进行峰检测了。该操作需要用到一款极为常用的峰检测工具 MACS,它由 Shirley Liu 的实验室开发。单击左侧“NGS peak calling”选项卡下的 MACS 以启用该工具。中部栏中有许多选项,但我们只需更改其中的几项。首先为文件命名,然后选择 ChIP 文件,也就是 FOXA1 ChIP 文件,再选择对应的对照实验文件,其中 MCF7 的对照文件为 input 对照,LoVo 细胞的对照文件为 IgG 对照。默认的基因组大小为 27 亿对碱基对,这是针对人类细胞的设置。其他生物的基因组大小可通过 MACS 网站查询,然后将标签大小改为您的测序读段长度。

选中“Parse xls files into interval files”。我们稍后介绍这一项。然后选择保存 wig 文件,以便获得结合信号文件用于稍后的可视化。最后,选择“Do not build the shifting model”并将“Arbitrary shift size in bip”设为 100。

那么为什么要更改上述两项呢?众所周知,常规 ChIP-seq 实验所得的测序读段是从碎片一端开始的,但这并不是真正的 TF 结合位点。真正的 TF 结合位点是片段中部的某个位置。默认情况下,MACS 会估计片段的长度,然后将读段移动到片段长度一半的位置,以此代表真实的 TF 结合位点。但出于某些原因,MACS 有时无法可靠地估计片段长度。此时,常规做法是直接禁用该功能,然后命令 MACS 将读段限制为特定的长度。在本例中,我们将读段长度设置为 100 个碱基对,这是禁用模型构建功能后的默认长度,效果非常不错。现在单击“Execute”。完成后,输出结果将以绿色背景显示在右侧,而输出文件的具体数量取决于 MACS 设置。在本例中,每个实验我们获得了六个输出文件。

现在我们来看一下每个文件各是什么。第一个文件是 HTML 报告,其中包含 MACS 的运行日志。第二个和第三个文件是 wig 文件,包含整个基因组的信号强度。“treatment; wig”文件是 ChIP 样品的信号,“control; wig”文件是对照样品的信号。同样地,wig 文件也是简单的文本文件。这里我们对讨论“negative peaks; interval”文件。第五个文件是“peaks; interval”文件,包含蛋白质富集区域,即本例中的 FOXA1。最后一个文件是 bed 文件,用于在基因组浏览器中使峰位置可视化,interval 文件和 bed 文件都是简单的文本文件。

单击 interval 文件的名称可将其下载到您的本地计算机,然后您可使用 Excel 等电子表格软件打开它们并轻松进行操作和处理。这可以说是最重要的输出文件之一,其中包含所有您必须掌握的结合位点相关信息,包括位置信息和统计信息。到这里,峰检测操作就完成了。

初学者常遇到的一个棘手问题就是:如何判断自己的实验是否成功了呢?实际上,您可以检查的项目有很多,但下面的三点是判断 ChIP 实验成功与否最有效的方法。第一,检查 interval 文件;第二,目视检查结合信号;第三,检查结合位点的富集基元。下面我们将逐个进行说明。

首先从检查 interval 文件开始。首先要按 FDR 升序排序,然后按富集倍数降序排序。我们首先要检查的是结合位点数量。如果将 FDR 选为常用的 1%,FOXA1/MCF7 数据中剩下约 42,000 个峰,但 FOXA1/LoVo 数据中仅剩下 430 个峰。当然,结合位点的数量取决于蛋白质、峰检测工具、细胞系以及其他诸多因素。但通常情况下这个数量应该为大约一千到几千,甚至上万。如您所见,FOXA1/LoVo 数据集显然不在上述范围内。第二项需要检查的是本地背景的富集倍数范围。FOXA1/MCF7 数据的范围较宽,为 4 - 300 倍,而最大的 FOXA1/LoVo 峰的富集倍数仅为约 20 倍,这表示该数据的信噪比相当低。第三项需要检查的是峰区域中测序读段的数量。同样地,FOXA1/MCF7 数据的范围比 FOXA1/LoVo 数据的范围更宽。因此,刚才所述的 3 个指标显然表明 FOXA1/LoVo 数据集存在一些问题。要继续判断数据质量,我们接下来可以将结合信号可视化,这似乎是判断 ChIP-seq 实验是否成功最有效的方法。

MACS 生成的 wig 文件就是信号文件,您可以直接在基因组浏览器中对其进行可视化。如果您需要处理较大的数据集,强烈建议您在进行可视化之前将 wig 文件转换为 bigWig 文件。bigWig 格式是一种索引二进制格式。对 bigWig 文件进行可视化时,只有文件中显示的部分会传输到基因组浏览器中,这比加载 wig 文件要快得多。要将 wig 文件转换为 bigWig 文件,单击左侧“Convert Formats”选项卡下的“Wig/BedGraph-to-bigWig”。然后在中间栏选择要转换的 wig 文件,单击“Execute”。

转换完成后更改文件名,单击文件名您将看到“display at UCSC main”选项。选择该选项,将出现新的 UCSC 基因组浏览器选项卡或窗口。在基因组浏览器中配置可视化时,将“显示模式”设置为“全屏”后就会显示信号的柱形图。将“垂直查看范围”设置为零到一个合理的最大值,如 100 或 200,然后将“数据查看比例”设置为“使用垂直查看范围”,这样柱形图就不会自动缩放了。然后您就能将结合信号可视化,如这里所示。

那么我们要关注哪些图形呢?在这一阶段您可以关注以下几点。观察峰形是否正常,即观察峰形是小的钟形曲线形状或是奇怪的尖峰。如果您已知部分目标基因,那么能否在启动子处或转录起始位点附近找到一些结合峰?最后,为了更完整地查看结合图,您可以查看全染色体视图。

该示例为全部四个样品在人类基因组完整的 12 号染色体上的信号图。两个对照文件的图像几乎是平的,跟预期的一样。FOXA1/MCF7 ChIP 样品的峰很多,而 FOXA1/LoVo ChIP 样品看上去与刚才提到的对照样品非常接近。它只有几个非常小的峰。这清晰地表明 FOXA1/LoVo ChIP 实验失败了,或者它至少不是最佳实验。这就是通过可视化判断数据质量的方法。

下一步是识别结合位点中的富集基元。我们将使用一款名为 MEME-ChIP 的程序来完成这项工作。要使用 MEME-ChIP,我们需要将 DNA 序列从峰值坐标系中提取到 Fasta 文件中。在进行下一步操作前我要对两条术语进行说明。当使用 MACS 进行峰检测时,“peak(峰)”代表的是从头到尾完整的富集区域,即左上方的黑色长条所指示范围内的峰。而橙色细线所指示的“whilst summit(峰顶点)”指的是富集区域中最高的累积点。此处应该是 TF 结合位点的确切位置。查找基元时涉及的序列范围不宜过大,一般选择以峰顶点为中心 100 对碱基对的区域作为基元查找的输入。MACS interval 文件中的 E 列即峰顶点位置与起始位置之间的距离。所以,要构建峰顶点 ± 50 对碱基对范围内的坐标,只需在 interval 文件 FDR 列之后创建四列新列。

第一列新列与 A 列相同,其内容为名称。第二列为 B 列,即 E 列的值减去 50。第三列的值为 B 列的值加上 E 列的值加上 50。第四列是为每个单独区域命名,如图所示,该操作可使用 Excel 轻松完成。然后将上述四个新列保存为制表符分隔的文本文件。我们将它命名为“FOXA1_summit_100bp.txt”。为简单起见,本次网络研讨会我仅选取 1,000 的区域进行基元查找。

现在,我们要利用坐标从上述区域中提取 100 对碱基对的 DNA 序列。首先,使用网络浏览器将上述文本文件上传至 Galaxy 服务器。单击左侧“Get Data”选项卡下的“upload data”选项,然后在中间栏将文件格式选为 interval。然后选择刚刚保存在计算机中的文本文件,并确保参考基因组是正确的。

上传完成后,单击“Fetch Sequences”选项卡下的“Extract Genomic DNA”。选择刚刚上传的文件,然后单击“Execute”即可。

操作完成后,系统将以 fasta 格式显示每 100 对碱基对区域中的 DNA 序列。您可以将该 fasta 文件保存至本地计算机;在这里,我们将它命名为 FOXA1_summit_100bp.fasta。

现在,我们通过幻灯片顶部的地址访问 MEME-ChIP 网站。这里的选项非常好理解。在Input框中选择您刚刚下载的 fasta 文件,然后输入您的电子邮箱地址和任务名称。通常默认设置都适用于初始分析,因此您只需单击“Start search”。然后您将通过电子邮件收到可获取结果的链接。

结果页面如图所示,左侧的基元是在您的输入区域内找到的 de novo 富集基元。右侧的Known or Similar Motifs表示该基元与已知 TF 基元之间的相似性。屏幕中所示的是 FOXA1/MCF7 数据。上方第一个基元是一个典型的 E 值极低的叉头基元。这正是成功的实验所要具备的。这里还返回了一些其他基元,表明了与其他转录因子之间潜在的相互作用。如果您的目标转录因子的家族基元序列未在结合区域富集,就像我们将在下一页幻灯片中展示的 FOXA1/LoVo 数据集一样,那么这些数据就可能有问题,除非您有其他有力证据能证明实验的有效性。

现在屏幕上所展示的是 FOXA1/LoVo 数据集的基元分析结果。如图所示,尽管上面两个基元看起来很像叉头基元,但它们的 E 值过大。还有两个复杂程度非常低的基元,它们仅仅是简单的碱基重复。上述基元分析结果进一步确证了 FOXA1/LoVo ChIP 实验未成功。到这里,我们就完成了基元查找阶段的工作,现在我们对数据的质量又有了更深入的了解。

另一个大部分生物学家都很感兴趣的内容是找到结合位点对应的基因,以及通过基因本体论分析找到转录因子的潜在生物学功能。为此我们需要使用由 Gill Bejerano 的实验室开发的 GREAT 网络工具。该工具用法简单,通过右上方的地址访问 GREAT 网站即可。然后在“参考基因组”处选择适合的基因组,在本例中,我们选择 hg19。然后从计算机中选择峰文件作为检测区域。由于这是一个 ChIP-seq 实验,因此我们选择全基因组作为背景。单击“show settings”,您将看到 GREAT 具体是如何将峰分配给基因的,而且您可以根据需要对其进行更改。但根据文献资料,默认设置的效果最好,因此您只需单击“submit”。

输出结果是这样的。顶部包含有关峰基因关联的一些基本信息,底部是具体类别的富集“GO”词条,如分子功能、生物学过程以及细胞组分等,还包括许多来自其他序列数据库的大量信息。这能够为我们提供大量有用信息,但我们在此不一一展开说明。其中非常有用的一项是:单击顶部的“job description”,该部分将展开;单击“view all genomic region-gene associations”,将出现两张表格:

其中一张表格显示的是每个峰的关联基因,另一张表格显示的是各基因的关联峰,同时还提供了峰与基因之间的距离。您可以文本文件格式下载上述文件用于以后的分析。这非常便捷。到这里我们就完成了基因本体论分析。

最后但很不重要的一点是,在热图中显示结合信号也是一个不错的选择。为此,我们需要比对文件,即此前我们在定位之后创建的 BAM 文件。单击下载数据集,将 BAM 文件保存至本地计算机。我们还需要使用名为 seqMINER 的程序,该程序由 Lazlo Tora 的实验室开发。只需通过顶部的地址下载 seqMINER,根据操作系统运行该程序,您将看到如下界面。

首先,要载入数据,需要在加载参考部分选择峰文件,例如我们刚才创建的 100 个碱基对区域的文本文件。由于文件较小,上传将迅速完成,然后您可在中部上方看到文件信息。在load aligned and read 区域中,选择刚刚下载的 BAM 文件,然后单击“load files”。上述两个文件将被加载到内存中,这似乎是整个 seqMINER 分析过程中最耗时的阶段。完成后,数据集将显示在中间。单击“extract data”,seqMINER 会在峰文件的上方从刚刚加载的各个比对文件中抽取读段,然后生成热图指标。

完成之后,结果将显示在右侧。如果右键单击结果并选择“visualization of HeatMap”,将显示所加载的两个文件的热图,右下方还将显示密度图。seqMINER 的优势在于您可以一次加载多个实验的数据,并且其规整的 KMeans 聚类分析不仅可帮您找出不同的结合模式,还能提取不同的聚类结果以进行更加详细的分析。但这部分内容不在本次研讨会的范围内。

以上就是常规 ChIP-seq 基础分析的全部内容,不涉及任何编程和命令行操作。希望您在使用自己的数据运行本次研讨会所介绍的工作流程时,能够迅速对 ChIP-seq 数据集的形式以及利用 ChIP-seq 数据所能获得的信息有一个大致的概念。在这里我列出了几篇参考文献,主要摘自《Nature Protocol》,其内容涉及详细的分步指南,包括关于 ChIP-seq 分析关键部分的问题排除技巧。其中有些操作需要一些编程经验,或至少命令行方面的经验。强烈建议需要进行基因组实验的实验室操作研究者掌握一些关于 linux 使用的基础知识,并亲自执行数据分析。这样有助于您更好地理解数据本身,而且做到这一点之后,您将会发现,本次网络研讨会介绍的所有分析仅需几条简单的命令即可全部完成。

我的演讲内容就是这些。下面我将时间交给 Miriam,她将为大家介绍 Abcam 的一些相关产品和方案,然后我会回来解答大家的问题。非常感谢。

MF:感谢 Xi 为我们带来这样一次有趣并且内容全面的演讲。下面我将利用此次机会为大家介绍一些 Abcam 产品和资源。

我们刚刚推出了一款高灵敏度的 ChIP 试剂盒,这款试剂盒专为可用样品量有限的 ChIP 实验而设计;例如,在处理患者样品、转基因小鼠组织或干细胞样品时。使用这款高灵敏度 ChIP 试剂盒,每次反应您最少仅需 2,000 个细胞或半毫克组织即可完成目标序列的富集。您在 5 小时内即可得到结果,因此一个工作日内即可完成实验,而且洗脱得到的 DNA 可直接用于测序、基因芯片分析或者 qPCR。

高灵敏度 ChIP 试剂盒是我们的高灵敏度系列产品之一,该系列专为起始材料量有限的实验设计。如果您需要利用样品量有限的 DNA 构建 DNA 文库,那么 Abcam 专为 Illumina® 测序设计的高灵敏度 DNA 文库制备试剂盒将是您的理想之选,使用该试剂盒,您仅需 0.2 ng DNA 即可构建 DNA 文库。我们的 ChIP-seq 高灵敏度试剂盒集上述两种试剂盒的优势于一身。该试剂盒专为帮助您成功执行起始样品量低至 5-10,000 个细胞的 ChIP-seq 实验而设计。

重亚硫酸盐测序通过重亚硫酸盐处理来确定甲基化模式。为帮助您更深入地研究甲基化模式,我们现在推出了几款专为 Illumina® 重亚硫酸盐测序 DNA 数据库建立的样品制备而设计的产品。使用我们的首款重亚硫酸盐测序 DNA 文库制备试剂盒,使用预处理后的 DNA 构建文库仅需 5 小时的时间。如果您的 DNA 样品未经处理,我们推荐您使用我们的重亚硫酸盐测序高灵敏度试剂盒,该试剂盒包含进行重亚硫酸盐修饰以及随后立即执行 DNA 文库构建制备步骤所需的全部试剂。文库构建的修饰和制备步骤仅需 6 小时。我要介绍的内容就是这些,下面我将话筒交还给 Xi,他将回答大家的一些问题。

XC:感谢 Miriam。第一个问题是:单端测序和双端测序读段数据哪种更好?对于大多数 ChIP-seq 实验,单端测序更普遍。当然,在 ChIP 实验中进行双端测序的成本要远远高于单端测序。从最终获得的信息这个角度来看,就 ChIP-seq 实验而言,双端测序数据可提供的信息并不会明显多于单端测序数据。因此,在 ChIP-seq 实验中,大多数人还是会选择经济实用的单端测序。

第二个问题是:作为对照,Input 和 IgG 哪种更好?实际上这两种对照都适用于作为 ChIP-seq 实验的对照,选择因人而异。对我们实验室来说,我们更倾向于选择 Input 对照,因为使用这种对照能够获得更复杂的文库。

第三个问题是:对于两个使用同种抗体、来自不同细胞类型或条件的染色体进行的 ChIP-seq 实验,有没有更简单的方法可以对它们之间的峰比率差异进行定量?这个问题比较棘手,是一个很好的问题。目前在 ChIP-seq 领域,为了开发出能够识别有差异的结合峰的软件,很多人都做了大量的工作,但到目为止尚没有公认的方法。现有的方法很多,如果您通过谷歌搜索“differentially binding ChIP-seq methods”,我相信您会得到很多检索结果,您可以查看这些方法所采用的计算方法,然后自己做出选择。

还有一个问题是:读段和峰的区别是什么?读段是测序仪给出的原始测序读数结果,包含实际的 DNA 序列和质量评分。目前,读段的长度一般为 50 - 100 碱基对。经过比对可得到包含基因定位信息的定位读段,因此,定位读段是读段的基因组坐标,读段的长度取决于测序水平,为 50 - 100 碱基对。而峰是峰检测工具返回的基因组区域,是读段聚集或堆叠的区域,该区域达到了峰检测工具的特定统计学阈值。

下面回答最后一个问题。这个问题是:如果结合位点的数量少于 1,000,可否认定实验失败?简单回答是 — 不能,我们不能仅仅根据结合位点的数量来判断 ChIP-seq 实验的成功与否。因为结合位点的数量取决于诸多因素,如蛋白质的表达、细胞系、峰检测工具,以及峰检测所应用的临界阈值等。如果使用本次网络研讨会介绍的方法,转录因子 ChIP-seq 测序正常情况下的结合位点数量在一千到几千之间。如果结合位点数量少于 1,000,就需要对实验存疑了。但也不能单纯凭借结合位点数量就判定实验是否成功。您还需要检查其他项目,比如基元分析结果,以及对信号强度进行目视检查。这就是最后一个问题了。下面我把时间交还给 Vicky,同时也感谢参加此次网络研讨会的所有人。

感谢 Xi 和 Miriam 今天的演讲。我们收到了很多提问,但很遗憾我们无法一一作答。关于那些未回答的问题,我们的技术支持团队将很快与您取得联系并回答您提出的问题。如果您对于此次网络研讨会上讨论的内容有任何疑问或者有任何技术问题,我们的技术支持团队将非常乐于为您提供帮助,您可通过 technical@abcam.com 联系他们。我们希望此次网络研讨会能够为您的研究工作提供一定的信息和帮助。我们期待并欢迎您参与今后的其他网络研讨会。再次感谢您的参与,祝您研究顺利!

注册