t分布随机邻居嵌入(t-SNE)是一项降维技术(获奖),特别适合于高维数据集的可视化。
听起来不错,但这是作者的话题。
您从这场比赛中收获了什么?
在开始对数据进行预测之前,请始终先对数据进行可视化处理!通常,可视化(例如我制作的可视化)可以洞悉数据分布,从而可以帮助您确定尝试哪种类型的预测模型。
信息必须1 被丢失-这是一个降维技术毕竟。但是,由于这是可视化时使用的一种很好的技术,因此丢失的信息的价值不及突出显示的信息(通过缩小为2或3维,使其可见/可理解)。
所以我的问题是:
- tSNE什么时候是适合该工作的工具?
- 什么样的数据集导致它不起作用,
- 它看起来可以回答什么样的问题,但实际上却不能回答?
- 在上面的第二个引用中,建议始终可视化您的数据集,是否应该始终使用tSNE进行可视化?
我希望可以反过来最好地回答这个问题,即回答:什么时候tSNE是适合该工作的工具?
提醒我不要依赖tSNE告诉我将如何轻松地对数据进行分类(分为几类-一个判别模型)令人误解的例子是,对于下面的两个图像,生成模型2更糟第一个/左边的可视化数据的准确性为53.6%,第二个/右边的可视化数据的准确性为67.2%。
1 我对此可能是错的,我可能会坐下来,稍后再尝试一个证明/计数器示例
2 请注意,生成模型与判别模型并不相同,但这是我给出的示例。