SparkR开发模式探讨

Zeng · 发表于 2015-10-22 10:45:23

最近项目需要在SparkR中部署生产系统，遇到一些问题，SparkR重载了一些R的方法，需要引起注意。
我们使用SparkR的模式是：
1、先利用SparkR进行预处理，从大数据集中抽取聚合数据，数据格式为DataFrame；
2、然后collect到本地R中进行分析，数据格式为data.frame。

SparkR提供了一些新的接口，参考文档有：
1、Quick Start：http://spark.apache.org/docs/latest/sparkr.html
2、API：http://spark.apache.org/docs/latest/api/R/index.html
3、DataFrame Guide: http://spark.apache.org/docs/latest/sql-programming-guide.html
4、Tutorial：https://www.codementor.io/spark/ ... rame-operations-sql
5、SparkR函数：http://blog.csdn.net/wa2003/article/details/46777237

yingqu · 发表于 2015-10-22 10:52:41

好东东，顶起

		自动登录	找回密码
密码			立即注册