大数据生态圈各个组件的原理解析、Demo教程、运行过程中的填坑记录和一些官方文档的翻译。
目前主要是Hadoop、HBase、Spark等。
由于大数据生态圈的工具越来越丰富,个人能力有限,只是把学过的/在项目中应用过的组件记录起来
如果你也有好的经验文档,欢迎补充~
附录(一些大数据组件)
计算框架:
- Beam:Google
- Tez:Hortonworks
- Spark:UC Berkeley
- Flink:TU Berlin
- Storm:Twitter
- Heron:Twitter
数据传输:
- Flume:Cloudera
- Sqoop:Cloudera
- Nifi:NSA
- Kafka:LinkedIn
SQL On Hadoop:
- Impala:Cloudera
- Hive:Facebook
- Presto:Facebook
- Keylin:eBay
- Phoenix:Salesforce
集群工具:
- Oozie:Yahoo
- Zeus:Alibaba
- Dr. Elephant:Hadoop 和Spark的性能监控和调优工具,LinkedIn
- Hue:Cloudera
- Ambari:Hortonworks
- Nagios:Ethan Galstad
- Ganglia:UC Berkeley
- Splunk:Splunk
数据挖掘/机器学习:
- CaffeOnSpark:基于Hadoop/Spark的分布式深度学习,Yahoo
- Photon:机器学习库支持Spark,Linkedin
- WhereHows:数据挖掘软件,Linkedin
- TensorFlow Serving:机器学习服务系统,Google
- FBLearner Flow:管理机器学习模型的机器学习软件,Facebook
- SyntaxNet:自然语言解析器,Google
- DeepText:文本理解引擎,Facebook
- CNTK:深度学习工具包,Microsoft
- DSSTNE:深度学习框架,Amazon
- Torchnet:深度学习框架,Facebook
- bot:聊天机器人开发平台,Facebook