roc 曲线的横坐标是假阳性率（tpr），纵坐标是真阳性率（tpr），纵

拿到微生物丰度表、基因表达谱或者临床数据以后，第一件事就是把样本分成训练集和验证集。用训练集去训练随机森林模型，再把这个模型拿出来去猜验证集的分组情况，最后画出来就是一条ROC曲线。这条曲线的横坐标是假阳性率（FPR），纵坐标是真阳性率（TPR），你能直接看出来模型到底准不准。这图里的行名是每个变量的名称，列名是样本的名字。现在有个在线工具可以帮你搞定ROC图，只需要上传数据和分组文件就行。平台能让你选择是单变量还是组合变量建模，默认会跑10折交叉验证，把10条曲线平均一下就变成一条最终的ROC曲线了。画出来的图还能直接导出，AUC值、标准差还有参考线的颜色都能自己改。如果想用最快的方法找出关键变量，单变量模式就挺合适；如果你觉得组合起来的效果会更好，复合变量模式就省事多了。交叉验证一般都是10折，折数多了模型更稳，但算力消耗也大。你还可以在图上保留10条曲线和标准差，看清楚数据的抖动情况。那条随机猜测的对角线颜色也能自己挑，方便和真正的模型区分开。字体和颜色也支持自定义，这样做出来的报告审稿人看着也顺眼。判断模型好不好就看AUC值了。AUC等于1说明分类完美了，现实中不可能达到只能接近它；AUC接近1说明模型很可靠临床价值高；AUC等于0.5就代表瞎猜；AUC小于0.5就是反向预测比瞎猜还不如。图上的阴影面积上下浮动一个标准差就是置信区间，这个区间越窄说明曲线越粗模型越稳定。