寻找例如基础架构堆栈/工作流程/管道


14

我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。

我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。

有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。


您对此有任何研究吗?有很多youtube视频和幻灯片演示,它们描述了不同的体系结构
Stanpol 2014年

1
嗨,Stanpol,谢谢您的回复-我进行了一些初步搜索,但除了AWS和cloudera之外,什么都没有找到-也许如果您能给我一些有希望的搜索词,我将很乐意从中获取。
chrshmmmr 2014年

Answers:


14

为了理解将机器学习集成到生产应用程序中的各种方式,我认为查看开放源代码项目以及公司描述其基础结构的论文/博客帖子很有用。

这些系统的共同主题是将模型训练与模型应用程序分离。在生产系统中,模型应用程序需要快速,大约100毫秒的时间,但是对于拟合模型参数(或等效参数)的更新频率有更大的自由度。

人们使用各种解决方案进行模型训练和部署:


7

关于建立复杂的分析管道的最详细,最清晰的解释之一是Twitch的同事。
他们给出了收集,运输,协调,处理,存储和查询数据的每种体系结构选择的详细动机。
引人入胜的阅读!在这里这里找到它。


太棒了,这正是我想要的!非常感谢:)
chrshmmmr 2014年

@chrshmmmr不客气。如果有帮助,别忘了投票/标记为接受!
tchakravarty 2014年

3
这些链接确实确实很有用,但是再说一遍,它们是链接,我想我们应该努力保持答案的独立性而不依赖于外部来源的稳定性。因此,如果您可以花大约两到三分钟的时间来添加,例如来自此链接的图表,并将其与快速描述一起发布,那就太好了。中包含以下内容:“例如,这是...系统的工作流程。<img>。有关更多信息,请参见<link>。”
鲁本斯2014年

1
@Rubens我会稍作修改。fgnu:会这样做,只需要更多的声誉即可实际支持答案,但我当然会尊重您的贡献:)
chrshmmmr 2014年

@Rubens仅仅是复制链接上的信息而已。如果有什么感觉,我想补充一下那里已经给出的解释。
tchakravarty 2014年


1

R的《实用数据科学》第1章(http://www.manning.com/zumel/)对数据科学过程进行了详尽的分类,包括团队角色以及它们与特定任务的关系。本书遵循本章中列出的模型,引用了将执行该任务或特定任务的阶段/人员。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.