教你如何成为数据科学家(十)完
一个合格的数据科学家必须有称手的工具,不能每次都赤手空拳的去处理一堆数据。一个好的数据科学家应该有自己的工具箱,遇到了不同的问题时候,知道应该用工具箱内的那个工具才合适。
最后一个部分,介绍了原作者推荐的工具箱,我们来一起看一下是否有什么是我们比较熟悉的,有什么是很陌生的。
-
MS Excel w/ Analysis ToolPak
微软的excel(简单实用,堪称数据处理中的好折凳^_^不过要用好也比较难)
-
Java, Python
java python 2种常见语言
-
R, R-Studio, Rattle
R,及其R相关的包
-
Weka, Knime, RapidMiner
三种数据处理工具
-
Hadoop Dist of Choice 选择hadoop的哪个发行版
-
Spark, Storm
hadoop相关的实时处理框架
-
Flume, Scribe, Chukwa
日志处理系统
-
Nutch, Talend, Scraperwiki
搜索引擎,中间件,多种数据源处理
-
Webscraper, Flume, Sqoop (Flume
Dup?) 网页抓取,日志处理
-
tm, RWeka, NLTK
R相关的自然语言处理,python相关的自然语言处理
-
RHIPE