3
如何模拟具有统计意义的数据?
我正在读10年级,正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据,并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的(0表示未服用药物,1表示已服用药物)。我正在寻找一种机器学习模型,该模型能够从一周中的时间之间的关系中学习,并将一周分为21个时间段,一天中的每个时间段分为三个时间段(1是星期一上午,2是星期一下午,等等。)。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如,在一个数据集中,我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性,要求我执行两个样本t检验,将一个时隙与其他每个时隙进行比较,并确保显着性值小于0.05。 但是,与其模拟自己的数据并检查我插入的趋势是否显着,不如倒退工作,也许我使用一个程序,要求我在一定的时隙内分配一个重要的趋势,并坚持执行。二进制数据中包含我所要求的趋势,以及其他时隙中的二进制数据,其中包含一些噪声但没有产生统计上显着的趋势。 是否有任何程序可以帮助我实现这样的目标?或者也许是python模块? 任何帮助(甚至对我的项目的一般性评论)将不胜感激!!