GDSC与CELL数据库的药物基因组学一致性实例分析

这篇文章主要介绍了GDSC与CELL数据库的药物基因组学一致性实例分析的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇GDSC与CELL数据库的药物基因组学一致性实例分析文章都会有所收获,下面我们一起来看看吧。

肿瘤细胞系药敏数据库,如GDSC和CELL提供了肿瘤细胞系药敏信息和对应的基因组学信息,但是一些研究提示两大数据库的数据具有分歧,一些研究证实两大数据集具有可信的一致性。

GDSC与CELL数据库的药物基因组学一致性实例分析

 

结果1.细胞系药理数据集的比较

GDSC与CELL数据库的药物基因组学一致性实例分析
 

Fig 1a: CCLE和GDSC药物筛选数据。

  • CCLE和GDSC数据库中存在相同的471个细胞系,并具有相关的基因组数据,但其中只有部分细胞系具有重叠的药物筛选数据:每个化合物对应的重叠范围为82-256个细胞系(中位数= 94;均值= 157)。

Fig 1b-1c:使用半数抑制浓度(IC50)和曲线下面积(AUC;1-AUC称为CCLE中的活性面积)对CCLE和GDSC药敏指标进行pearson相关性分析。全部结果见补充图。

  • 在可以直接进行GDSC-CCLE比较的情况下,几乎所有化合物(13/15)的AUC和IC50分布均以药物不敏感谱系为主,而药物敏感系则少得多。“小提琴图”显示了每种化合物的所有CCLE和GDSC AUC值的完整分布,而散点图则展示重叠细胞系的分布。IC50值的结果与AUC的结果相似,见补充图。几种靶向药物在重叠细胞系中几乎没有敏感性细胞系(例如,克唑替尼2个,尼洛替尼3个,TAE684 2个,厄洛替尼或索拉非尼0个)。重叠细胞系中敏感性细胞系的相对缺乏限制了两个数据集可达到的相关水平。
GDSC与CELL数据库的药物基因组学一致性实例分析
 

Fig 1d-1e: pearson相关性(y轴)较spearson相关性(x轴)分析的相关性更强。

  • 相关性分析的统计能力:在大多数情况下,相关分析能够在敏感和不敏感细胞系数目之间的不平衡以及原始分析方法具有差异的情况下保持良好的一致性。
  • Haibe-kains 等人基于Spearman相关性系数计算两数据集的相关性。
  • 将Pearson相关系数与Spearman的系数进行比较,大多数药物的相关系数都得到了明显提高。但是某些相关值仍然很差,这可能是由于细胞系生物学上的差异、实际药理学测量(例如nutlin-3,紫杉醇和PHA665752),或者针对某药物的细胞系集合仅存在一种敏感系(例如erlotinib和sorafenib)。
GDSC与CELL数据库的药物基因组学一致性实例分析
 

Fig 1f: 使用瀑布图对耐药株和敏感株进行分类,并将此研究(y轴)与haibe-kains研究的Cohen’kappa系数(两个变量的一致性系数)进行比较。

  • 在13种相关化合物中,平均94%的细胞系(CCLE= 94%,范围= 77–100%;GDSC= 96%,范围= 86–100%)聚集在药物不敏感范围(例如,大多数化合物的IC50值> 1μM)。
  • 瀑布图分析还表明,在CCLE和GDSC数据之间,细胞系归类为“敏感”或“抗性”的一致性很高(由cohen’kappa系数反映)。
GDSC与CELL数据库的药物基因组学一致性实例分析
 
  • 扩展数据图3:在所有测试药物中,使用简单的药物敏感性临界值(1μM)时,这种一致性也很明显。
  • 瀑布图和简单阈值法都显示出较haibe-kains等人研究的更高一致性,表明CCLE和GDSC细胞系药理筛选数据适合用于建模研究,从而区分少见的药物敏感性细胞系。

 

结果2.药物敏感性预测指标的比较

探究CCLE和GDSC细胞系集合在何种程度上能够阐明抗癌药功效的常见遗传学或分子基础。

 

2.1 方差分析(ANOVA)

使用CCLE和GDSC上的重叠细胞系进行了方差分析(ANOVA),从而确定两个数据集之间药物反应的分子相关性是否一致。总共使用两个模型,预测变量分别为IC50或活性面积(即1-AUC)得分,两个模型均将起源组织视为协变量,将71个癌基因的突变状态视为独立变量。

GDSC与CELL数据库的药物基因组学一致性实例分析
 

Fig 2A: ANOVA分析在13个化合物(GDSC或者CELL满足)、8个化合物(GDSC和CELL同时满足)鉴定出与耐药或者敏感最相关的已知基因标志。

  • 基于IC50值的ANOVA模型,两个数据集中均发现的基因标志包括NRAS突变(对MEK抑制剂PD0325901敏感)、BRAF突变(对BRAF抑制剂PLX4720)、BCR-ABL1融合基因(对多种ABL1抑制剂敏感,如nilotinib,AZD0530)以及ERBB2扩增(对ERBB2抑制剂拉帕替尼敏感)。基于活性评分和IC50的ANOVA模型结果一致,获得两数据集的一致性耐药性关联,例如对nutlin-3耐药的TP53突变。基于活性评分的ANOVA分析,GDSC的14种药物和CCLE的15种药物显示出组织起源特异性的相关性,这些关联在数据集之间是一致的(事后Welch t检验,见扩展数据图5)。

 

2.2 弹性网络回归与岭回归分析

GDSC与CELL数据库的药物基因组学一致性实例分析扩展数据图6:对21,013个基因组特征(包括表达,拷贝数变化和突变)进行了多变量分析,更全面地评估基因组预测因子的一致性。 

        使用每个研究可用的完整数据集或仅使用重叠数据集进行弹性网络回归。该分析产生了强劲的预测分子,并且预测分子的重叠非常显着(χ2 P <10-8)。在至少一个数据集的13个化合物中,药物反应的已知预测因子作为最相关的分子。在两个数据集的10个化合物都显示出这种相关性,与CCLE和GDSC各自数据集所报告的结果一致。

        对两个数据集中重叠药物的IC50值的弹性网络回归分析确定了其他预测因子。在nutlin-3敏感性的情况下,MDM2表达和TP53突变就是一个例子。在每个数据集上单独使用弹性网模型发现的4,957个药物基因关联中,仅观察到一个分歧的结果(占比0.02%,在两数据集中具有相反的权重系数)。

GDSC与CELL数据库的药物基因组学一致性实例分析GDSC与CELL数据库的药物基因组学一致性实例分析

Fig 2B-2D:一个数据集用弹性回归以确定预测因子,另一个数据集用岭回归以验证预测因子的作用,探索确定药物敏感性的基因组预测因子。

        CCLE和GDSC研究中确定的预测基因组特征具有高度一致性,即使对于很少有重叠细胞系的药物也是如此。> 80%的这些特征被确定为具有一致的方向性(标准化效应同为正或同为负)。在某些情况下,初始弹性网络回归无法确定预测变量,这通常部分归因于少量的药物敏感性细胞系。另一方面,一些基于AUC或IC50表现出低相关性的药物仍然能够识别一致的预测因子(例如,nutlin-3)。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注