日期:2014-05-16  浏览次数:20418 次

教你如何成为数据科学家(十)完

一个合格的数据科学家必须有称手的工具,不能每次都赤手空拳的去处理一堆数据。一个好的数据科学家应该有自己的工具箱,遇到了不同的问题时候,知道应该用工具箱内的那个工具才合适。

最后一个部分,介绍了原作者推荐的工具箱,我们来一起看一下是否有什么是我们比较熟悉的,有什么是很陌生的。


  • Toolbox
  1. MS Excel w/ Analysis ToolPak                                 微软的excel(简单实用,堪称数据处理中的好折凳^_^不过要用好也比较难)
  2. Java, Python                                                           java python 2种常见语言
  3. R, R-Studio, Rattle                                                  R,及其R相关的包
  4. Weka, Knime, RapidMiner                                       三种数据处理工具
  5. Hadoop Dist of Choice                                             选择hadoop的哪个发行版
  6. Spark, Storm                                                            hadoop相关的实时处理框架
  7. Flume, Scribe, Chukwa                                            日志处理系统    
  8. Nutch, Talend, Scraperwiki                                       搜索引擎,中间件,多种数据源处理
  9. Webscraper, Flume, Sqoop (Flume Dup?)               网页抓取,日志处理
  10. tm, RWeka, NLTK                                                     R相关的自然语言处理,python相关的自然语言处理
  11. RHIPE