我正在研究乳腺癌数据集,并创建了所有属性的散点图,以了解哪个属性对预测(红色)的类别malignant
(蓝色)影响最大benign
。
我知道该行代表x轴,而列代表y轴,但是我看不到我可以对散点图中的数据或属性进行哪些观察。
我正在寻找一些帮助来解释/观察来自此散点图的数据,或者是否应该使用其他可视化来可视化此数据。
我用的R代码
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
您是对的:很难在其中看到很多东西。由于所有变量看起来都是离散的,类别的数量相对较少,因此无法确定要堆叠多少个符号以形成每个清晰可见的符号。这使得这种特殊的形象在评估任何事情时都没有什么价值。
—
whuber
这就是我的想法。我试图绘制一个盒装的barplot,但这对于查看哪个属性对类的影响最大不会有用……?寻找有关哪种类型的可视化的帮助会提供一些有意义的信息。
—
2014年
如果您抖动(添加噪声)成堆的点,则两种颜色的散射会很有意义。
—
ttnphns 2014年
@ttnphns我不明白你所说的“抖动您的点堆”的意思
—
小鸟
抖动意味着编辑图,以便将重叠点放置在彼此旁边,以免遮挡一个数据点在另一数据点上的视线。通常在R绘图函数中使用。
—
OFish