Answers:
新闻媒体倾向于宽松地使用“大数据”。供应商通常会提供有关其特定产品的案例研究。开源实现的地方不多,但确实得到提及。例如,Apache不会花很多时间在hadoop上进行案例研究,但是诸如Cloudera和Hortonworks之类的供应商可能会花很多时间。
引用研究:
全球一家主要的金融服务集团使用Cloudera和Datameer来帮助识别流氓交易活动。公司资产管理团队中的团队正在对价格,头寸和订单信息的每日提要进行临时分析。通过对所有详细数据进行临时分析,小组可以检测出某些资产类别中的异常情况并识别可疑行为。用户以前仅依靠桌面电子表格工具。现在,有了Datameer和Cloudera,用户拥有了一个强大的平台,该平台使他们能够更快地浏览更多数据并在开始使用之前避免潜在的损失。
。
一家领先的零售银行正在使用Cloudera和Datameer来验证《多德-弗兰克法案》和其他法规所要求的数据准确性和质量。该银行的数据质量计划整合了贷款和分支机构数据以及财富管理数据,负责确保每条记录都是准确的。该过程包括对数据进行50多次数据健全性和质量检查。这些检查的结果会随时间变化,以确保数据损坏和数据域的容限不会发生不利变化,并确保向投资者和监管机构报告的风险状况是审慎的,并且符合监管要求。结果通过数据质量仪表板报告给首席风险官和首席财务官,
我没有在Cloudera上看到任何其他与金融相关的研究,但是我并没有进行非常艰苦的搜索。您可以在这里查看他们的图书馆。
此外,Hortonworks在一个有关交易策略的案例研究中发现,利用K-means,Hadoop和R开发策略的时间减少了20%。
这些并不能回答您所有的问题。我很确定这两项研究都涵盖了其中大部分内容。我没有看到关于工具选择的任何信息。我想销售代表与将整个产品推向市场有很大关系,但是数据科学家自己利用了他们最熟悉的工具。我对大数据领域的这一领域没有太多了解。
金融服务是大数据的大用户,也是创新者。一个例子是抵押债券交易。要回答您的问题:
这些公司使用了什么样的数据。数据大小是多少?
他们使用了什么样的工具技术来处理数据?
它会有所不同。有些使用基于Netezza或Teradata等数据库构建的内部解决方案。其他人则通过数据提供者提供的系统访问数据。(Corelogic,Experian等)某些银行使用列数据库技术,例如KDB或1010data。
他们面临的问题是什么,他们如何获得数据的洞察力如何帮助他们解决了问题。
关键问题在于确定抵押债券(抵押贷款抵押品)何时将预付或违约。这对于缺乏政府担保的债券尤为重要。通过深入研究付款历史记录,信用文件并了解房屋的当前价值,可以预测出现违约的可能性。添加利率模型和预付款模型也有助于预测预付款的可能性。
他们如何选择适合自己需要的工具/技术。
如果项目是由内部IT驱动的,则通常基于大型数据库供应商,例如Oracle,Teradata或Netezza。如果它是由数量驱动的,那么他们更有可能直接去找数据供应商,或者第三者“ All in”系统。
他们从数据中识别出什么样的模式,以及他们从数据中寻找什么样的模式。
Kaggle简要介绍了应用程序:
Revolution Analytics发布了许多常规案例研究,数据表和白皮书:
对于科学和工程中的应用,您可以参考Nutonian案例研究:
Analyx向潜在客户介绍了商业应用程序:
英国《金融时报》发表了一系列有关大数据业务应用的故事:
麦肯锡在2011年概述了应用程序:
其他咨询公司也做出了类似的报告。
Gartner创建了大数据的炒作周期:
更不用说其他公司想要推广其产品的案例研究和白皮书。
看看O'Reilly的免费数据报告。您可以找到有关银行和金融科技,体育,时尚,音乐,健康,石油和天然气等的报告。
请记住,前面提到的麦肯锡报告是经典报告,必须阅读。