<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>大数据 - Spark</title>
    <link>http://www.bigbase.cn/forum.php?mod=forumdisplay&amp;fid=40</link>
    <description>Latest 20 threads of Spark</description>
    <copyright>Copyright(C) 大数据</copyright>
    <generator>Discuz! Board by Comsenz Inc.</generator>
    <lastBuildDate>Sat, 02 May 2026 19:39:51 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>http://www.bigbase.cn/static/image/common/logo_88_31.gif</url>
      <title>大数据</title>
      <link>http://www.bigbase.cn/</link>
    </image>
    <item>
      <title>不能正常停止Spark Streaming应用异常</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=17</link>
      <description><![CDATA[在利用Spark 1.6.0 Streaming处理AWS Kinesis消息时，不能正常停止Spark Streaming应用，异常如下：
      有关这个问题的更多讨论参考AWS论坛。

      java.lang.IllegalStateException: close() was called on BatchedWriteAheadLog before write request with ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Wed, 27 Jul 2016 08:38:15 +0000</pubDate>
    </item>
    <item>
      <title>Spark MultipleOutputs解决方案</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=13</link>
      <description><![CDATA[在目前Spark版本中，对MultipleOutputs的支持不够到位，不方便将数据集保存到不同路径下。估计大家已经翻阅下面Stackoverflow链接n遍：
    Write to multiple outputs by key Spark - one Spark job
    根据这个链接文档，可以解决好Text File的多路保存，但如果 ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Fri, 19 Feb 2016 03:21:25 +0000</pubDate>
    </item>
    <item>
      <title>迁移AWS EMR4.1.0 Spark 1.5.0遇到的问题</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=12</link>
      <description><![CDATA[最近迁移到AWS EMR 4.1.0，其中Spark的版本是1.5.0，在Spark Streaming应用部署的过程中，遇到了不少问题：

1. Cast Exception
org.apache.spark.deploy.SparkHadoopUtil cannot be cast to org.apache.spark.deploy.yarn.YarnSparkHadoopUtil

https://github.com/apa ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Wed, 11 Nov 2015 01:42:59 +0000</pubDate>
    </item>
    <item>
      <title>Spark提交Job如何设置参数</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=6</link>
      <description><![CDATA[最近需要提交Spark Streaming的Job，如何设置参数成为一个问题，根据Spark的文档，在基于yarn模式时，可以指定如下参数：      其实，这里缺乏对--executor-memory和--num-executors的解释。

      通过参考网上文档，可以计算出这些参数的大小，比如有5个node的 ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Wed, 22 Apr 2015 16:43:32 +0000</pubDate>
    </item>
    <item>
      <title>Spark RDD API By Example</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=4</link>
      <description><![CDATA[RDD is short for Resilient Distributed Dataset. RDDs are the workhorse of the Spark system. As a user, one can consider a RDD as a handle for a collection of individual data partitions, which are the result of some computation.    However, an RDD ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Sat, 18 Apr 2015 14:32:29 +0000</pubDate>
    </item>
    <item>
      <title>Scala课堂!</title>
      <link>http://www.bigbase.cn/forum.php?mod=viewthread&amp;tid=3</link>
      <description><![CDATA[Scala课堂是Twitter启动的一系列讲座，用来帮助有经验的工程师成为高效的Scala 程序员。Scala是一种相对较新的语言，但借鉴了许多熟悉的概念。因此，课程中的讲座假设听众知道这些概念，并展示了如何在Scala中使用它们。我们发现这是一个让新工程师能够快速上手的 ...]]></description>
      <category>Spark</category>
      <author>Zeng</author>
      <pubDate>Sat, 18 Apr 2015 14:19:47 +0000</pubDate>
    </item>
  </channel>
</rss>