rdlc如何传参数

1. Spark核心模块整体简介

（1）Spark的关键运算组件图：

（2）总结：

Spark的核心组件总结包括RDD、Scheduler、Storage、Shuffle四部分：

1）RDD是Spark最核心最精髓的部分，spark将所有数据都抽象成RDD。

2）Scheduler是Spark的调度机制，分为DAGScheduler和TaskScheduler。

3）Storage模块主要管理缓存后的RDD、shuffle中间结果数据和broadcast数据

4）Shuffle分为Hash方式和Sort方式，两种方式的shuffle中间数据都写本地盘

2. 核心模块——RDD整体介绍

（1）RDD的概念：

1）RDD是Spark的基石，也是Spark的灵魂。

2）RDD是弹性分布式数据集，是只读的分区记录集合。

（2）每个RDD有5个主要的属性：

1）一组分片(Partition)：数据集的最基本组成单位

2）一个计算每个分片的函数：对于给定的数据集，需要做哪些计算

3）依赖（Dependencies）：RDD的依赖关系，描述了RDD之间的lineage

4）preferredLocations（可选）：对于data partition的位置偏好

5）partitioner（可选） -- 对于计算出来的数据结果如何分发

（3）RDD的举例1：

rdd1= ( “hdfs://…”)

rdd1是一个MappedRDD，该RDD是从外部文件创建的。

可以传入分片个数参数，否则采用defaultMinPartitions。

（4）RDD的举例2：

rdd2= rdd1.filter( “ERROR”))

rdd2也是一个FilteredRDD，是从rdd1这个RDD衍生（即计算）得到的。

rdd1是rdd2的父节点，即rdd2依赖rdd1。

filter是RDD的操作，即每个分片需要计算的函数。

3. 核心模块——RDD操作

（1）RDD的操作工分为两类：转换transformations和动作actions

1）转换transformations

从现有的数据集创建一个新的数据集即数据集中的内容会发生更改，由数据集A转换成为数据集B

2）动作actions

在数据集上运行计算后，返回一个值给驱动程序。即数据集中的内容会被归约为一个具体的数值（Scala标量、集合类型的数据或存储）。

（2）具体的RDD方法举例如图：

4. 核心模块——RDD的持久化

（1）RDD持久化的时机：

1）默认情况下，每一个转换过的RDD都会在它之上执行一个动作时被重新计算。

2）如果rdd只被使用一次或者很少次，不需要持久化。如果rdd被重复使用或者计算其代价很高，才考虑持久化。另外，shuffle后生成的rdd尽量持久化，因为shuffle代价太高。

（2）RDD持久化的效果：

1RDD被缓存后，Spark将会在集群中，保存相关元数据，下次查询这个RDD时，它将能更快速访问，不需要计算。

2）如果持久化无谓的RDD，会浪费内存（或硬盘）空间，反而降低系统整体性能

（3）RDD持久化的方法：

1）使用 persist方法(或者cache方法)，持久化一个RDD在内存或磁盘中。

2）cache()过程是将RDD persist在内存里，persist()操作可以为RDD指定StorageLevel。

（4）RDD的存储级别StorageLevel

5. 核心模块——RDD依赖关系

（1）RDD之间存在依赖的原因：

1）RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

2）能从其他RDD通过确定操作创建新的RDD的原因是RDD含有从其他RDD衍生（即计算）出本RDD的相关信息（即Lineage）

（2）RDD依赖的分类：

Dependency代表了RDD之间的依赖关系，即血缘（Lineage），分为窄依赖和宽依赖。

（3）窄依赖和宽依赖图形表示：

（4）依赖详解

窄依赖：

•一个父RDD最多被一个子RDD用

•常见的操作：map、filter、union等；

宽依赖：

•指子RDD的分区依赖于父RDD的所有分区，这是因为shuffle类操作要求所有父分区可用。

•常见的操作：比如groupByKey、reduceByKey、 sort、partitionBy等；

（5）基于RDD的依赖关系，spark的任务阶段划分原则：

根据RDD依赖关系的不同，Spark将每一个job分为不同的stage，stage之间的依赖关系形成了DAG图。具体来讲就是：

1）窄依赖Spark将其尽量划分在同一个stage中，因为它们可以进行流水线计算。

2）宽依赖往往意味着shuffle操作，这也是Spark划分stage的主要边界。

（6）阶段stage划分的示例图：

（7）针对示例图的解释：

1）一个Stage的开始就是从外部存储或者shuffle结果中读取数据；一个Stage的结束就是发生shuffle或者生成结果时。

2）由于rdd F是rdd G的宽依赖，所以将F与G分别划分到不同的stage，但是B是G的窄依赖（B的每个分区只被使用一次），所以B与G还保持在一个stage。

3）由于rdd A是rdd B的宽依赖，所以A和B划分在不同的stage

4）在图中Stage2中，从map到union都是窄依赖，在一个stage，这两步操作可以形成一个流水线操作，通过map操作生成的partition可以不用等待整个RDD计算结束，而是继续进行union操作，这样大大提高了计算的效率。

6. 核心模块——RDD的容错关系

如果transformation操作中间发生计算失败：

1）运算是窄依赖

只要把丢失的父RDD分区重算即可，跟其他节点没有依赖，这样可以大大加快场景恢复的开销。

2）运算是宽依赖

需要父RDD的所有分区都存在，重算代价就较高

3）增加检查点

当Lineage特别长时或者有宽依赖时，主动调用 checkpoint把当前数据写入稳定存储，作为检查点

“rdlc如何传参数,rdlc,设置参数”边界阅读

rdlc如何传参数

rdlc如何传参数相关介绍,前言随着 .NET 平台的出现，报表相关的开发控件随着而来，已经有若干成熟的产品可供开发人员使用，本文旨在通过从不同维度对比目前最流行的4款 .NET报表控件，给所有报表开发人员在做产品选型时一份全

如何做银行假流水—如何做银行假流水单!

如何做银行假流水,如何做银行假流水单,如何做银行假流水账相关介绍,做假流水不可行，千万不要以身试法如今房价高，一个月还贷一两万元的购房者不少，但未必所有人的月收入都有三四万元那么多，所以各路神仙魔怪就出来了。羊城晚报记者暗访市场发现，有的不法中介打着帮人“美化”银

【猎人新橙卡武器】炉石DIY——有了这把武器，驯龙猎卡组构建不成问题

猎人新橙卡武器相关介绍,各位看官，欢迎收看本期行仔的炉石DIY 术士职业橙卡，随从牌战吼，加攻减血猎人职业橙卡，武器驯龙猎人也许是新的卡组设想萨满职业紫卡，法术牌摧毁正对面的随从 ————END————待续——

【克鲁赛德远古武器】克鲁赛德战记古代地牢枪之试炼2层怎么过枪之试炼2层通关攻略

克鲁赛德远古武器相关介绍,古代地牢枪之试炼通关攻略第一层第二层第三层克鲁赛德战记古代地牢枪之试炼2层怎么过？枪之试炼2层怎么通关？这篇克鲁赛德战记古代地牢枪之试炼2层通关攻略，希望可以帮大家。 1、队伍的选择锤之试炼

W7安装了的软件如何显示在桌面

W7安装了的软件如何显示在桌面相关介绍,很多用户会把常用的文件放在桌面便于操作，桌面是指开启电脑并成功登录系统后看到的显示器主屏幕区域，一般包括图标、背景图、任务栏等。下面小编教你win7系统如何添加显示桌面图标。 win7系统是仍旧是一款

【剑灵武器怎么弄划算】剑灵祝福S1材料成本详解怎么做才划算

剑灵武器怎么弄划算相关介绍,【剑灵白青山脉装备养成攻略】玩家分享祝福S1材料成本详解，告诉你怎么做才合算。先说下升S1所用材料费用： 16鬼混x3J=48J 11月石x15Y=1.65J 398灵石x13Y=51.74J 83

〈qq图标如何熄灭〉qq图标隐藏怎么弄出来!

qq图标如何熄灭,qq图标隐藏怎么弄出来,qq图标logo相关介绍,本文由多玩新闻中心《印象》栏目出品，转载请注明出处。我每天都在重复对右下角那只企鹅的重视，它如今真正履行了作为一个IM软件的核心功能，但也把一些曾经受追捧过的功能埋没到了荒角，比如个人名片上的那排Q

【60版剑魂史诗武器最好】8年DNF的老剑魂告诉你异界套七伤才是王道

60版剑魂史诗武器最好相关介绍,作为玩了8年DNF的老玩家，身上有几套平民装备是非常正常的事情，烟火是穷鬼，没有史诗套，也就是几套异界套和一套圣物套，圣物套的优点是人所共知的，但是现在的异界这么好刷，我不相信你真的不想弄几套异界套。

责任编辑: 鲁达

“rdlc如何传参数,rdlc,设置参数”边界阅读