设为首页
收藏本站
开启辅助访问
切换到宽版
请
登录
后使用快捷导航
没有帐号?
立即注册
用户名
Email
自动登录
找回密码
密码
登录
立即注册
快捷导航
首页
Portal
互动
BBS
群组
Group
交友
排行榜
搜索
搜索
热搜:
AWS
Hadoop
Tableau
本版
帖子
群组
用户
大数据
»
互动
›
数据处理
›
Spark
›
Spark MultipleOutputs解决方案
返回列表
查看:
30887
|
回复:
0
Spark MultipleOutputs解决方案
[复制链接]
Zeng
Zeng
当前离线
积分
287
15
主题
15
帖子
287
积分
版主
积分
287
收听TA
发消息
电梯直达
楼主
发表于 2016-2-19 11:21:25
|
只看该作者
|
倒序浏览
|
阅读模式
在目前Spark版本中,对MultipleOutputs的支持不够到位,不方便将数据集保存到不同路径下。估计大家已经翻阅下面Stackoverflow链接n遍:
Write to multiple outputs by key Spark - one Spark job
根据这个链接文档,可以解决好Text File的多路保存,但如果你的需求是生成Sequence File或者Parquet File,这里提供的方法就难以解决,其主要问题在于value数据集难以按记录分开保存为<null value>格式。
下面链接对MultipleOutputs问题做了更多的探讨:
Writing to multiple outputs in Spark
其实,传统hadoop是可以正常处理文件的多路输出,但要在Spark中使用,需要进行包装。下面链接提供了一个非常好的参考实现,但要根据自己的业务需求进行调整和改进(如果你有疑问,可以回复本帖):
Wrapping OutputFormat to produce multiple outputs with hadoop MultipleOutputs
收藏
0
转播
回复
使用道具
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
技术资讯
Pentaho
实时数据处理方案
Kibana
Copyright © 2015
bigbase.cn
(http://www.bigbase.cn/) 版权所有 All Rights Reserved.
Powered by
Discuz!
X3.2 技术支持:
克米设计
京ICP备12000707号-3
快速回复
返回顶部
返回列表