大数据

 找回密码
 立即注册
搜索
热搜: AWS Hadoop Tableau
查看: 32547|回复: 1
打印 上一主题 下一主题

SparkR开发模式探讨

[复制链接]

15

主题

15

帖子

287

积分

版主

Rank: 7Rank: 7Rank: 7

积分
287
跳转到指定楼层
楼主
发表于 2015-10-22 10:45:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    最近项目需要在SparkR中部署生产系统,遇到一些问题,SparkR重载了一些R的方法,需要引起注意。
    我们使用SparkR的模式是:
    1、先利用SparkR进行预处理,从大数据集中抽取聚合数据,数据格式为DataFrame;
    2、然后collect到本地R中进行分析,数据格式为data.frame。

    SparkR提供了一些新的接口,参考文档有:
    1、Quick Start:http://spark.apache.org/docs/latest/sparkr.html
    2、API:http://spark.apache.org/docs/latest/api/R/index.html
    3、DataFrame Guide: http://spark.apache.org/docs/latest/sql-programming-guide.html
    4、Tutorial:https://www.codementor.io/spark/ ... rame-operations-sql
    5、SparkR函数:http://blog.csdn.net/wa2003/article/details/46777237
回复

使用道具 举报

0

主题

1

帖子

28

积分

新手上路

Rank: 1

积分
28
沙发
发表于 2015-10-22 10:52:41 | 只看该作者
好东东,顶起
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表