roc 曲线的横坐标是假阳性率(tpr),纵坐标是真阳性率(tpr),纵

拿到微生物丰度表、基因表达谱或者临床数据以后,第一件事就是把样本分成训练集和验证集。用训练集去训练随机森林模型,再把这个模型拿出来去猜验证集的分组情况,最后画出来就是一条ROC曲线。这条曲线的横坐标是假阳性率(FPR),纵坐标是真阳性率(TPR),你能直接看出来模型到底准不准。这图里的行名是每个变量的名称,列名是样本的名字。现在有个在线工具可以帮你搞定ROC图,只需要上传数据和分组文件就行。平台能让你选择是单变量还是组合变量建模,默认会跑10折交叉验证,把10条曲线平均一下就变成一条最终的ROC曲线了。画出来的图还能直接导出,AUC值、标准差还有参考线的颜色都能自己改。 如果想用最快的方法找出关键变量,单变量模式就挺合适;如果你觉得组合起来的效果会更好,复合变量模式就省事多了。交叉验证一般都是10折,折数多了模型更稳,但算力消耗也大。你还可以在图上保留10条曲线和标准差,看清楚数据的抖动情况。那条随机猜测的对角线颜色也能自己挑,方便和真正的模型区分开。字体和颜色也支持自定义,这样做出来的报告审稿人看着也顺眼。 判断模型好不好就看AUC值了。AUC等于1说明分类完美了,现实中不可能达到只能接近它;AUC接近1说明模型很可靠临床价值高;AUC等于0.5就代表瞎猜;AUC小于0.5就是反向预测比瞎猜还不如。图上的阴影面积上下浮动一个标准差就是置信区间,这个区间越窄说明曲线越粗模型越稳定。