V2AS
问路
意见反馈
↓ 按住下拉
spark集群的简单测试和基础命令的使用
写此篇文章之前,已经搭建好spark集群并测试成功; spark集群搭建文章链接:http://www.cnblogs.com/mmzs/p/8193707.html 一、启动环境 由于每次都要启动,比较麻烦, ......
18
10
08
01
INFO
2 大数据实战系列-spark shell wordcount
cd /home/data/app/hadoop/spark-2.1.1-bin-hadoop2.7/bin ./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m 初 ......
Spark
spark
Hadoop
数据
搭建
图解Spark Graphx基于connectedComponents函数实现连通图底层原理
原创/朱季谦 第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进。 一、连通图说明 连通图是指图中的任意两个顶点之间都存在路径相连而组成的 ......
顶点
edge
Spark
id
最小
图解Spark Graphx实现顶点关联邻接顶点的函数原理
在一张社区网络里,可能需要查询出各个顶点邻接关联的顶点集合,类似查询某个人关系比较近的都有哪些人的场景。 在用Spark graphx中,通过函数collectNeighbors便可 ......
顶点
ctx
邻居
Spark
Array
大数据实战手册-开发篇之IO
2.4 sparkContext IO:读 2.4.1 textFile Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt ......
数据
option
实战
OD
MySQL
大数据实战手册-开发篇之
RDD
:计算 transform->action
2.2
RDD
:计算 transform->action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2] neutral_zero_value = (0,1) sum: x+0 = x, pro ......
print
collect
parallelize
sc
rdd
6大数据实战系列-sparkSql实战
sparkSql两个最重要的类SqlContext、DataFrame,DataFrame功能强大,能够与
rdd
互转换、支持sql操作如sql().where.order.join.groupBy.limit等。 SparkSql的查询响应性 ......
Hadoop
系列
数据
spark
hadoop
Spark
RDD
惰性计算的自主优化
原创/朱季谦
RDD
(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对
RDD
进行转换或操作,那就需要创建一个新的
RDD
来保存结果。故而就需要用到转 ......
RDD
Spark
分区
打印
依赖
Spark常用算子
Spark是一个快速、通用、可扩展的分布式数据处理引擎,支持各种数据处理任务。Spark提供了许多强大的算子,用于对数据集进行各种转换和操作。 以下是Spark中常用的一些 ......
import
spark
java
apache
org
从
RDD
创建DataFrame
0.前次作业:从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 从数组创建pandas dat ......
df
spark
RDD
DataFrame
people
V2AS = Way To Ask
V2AS 一个技术分享与创造的静土
手机扫一扫
移动阅读更方便
近15日热搜文章
FeignClient中使用熔断机制hystrix
Linux下VCS2014和Verdi2015的联合使用
C++20初体验——concepts
4
Arduino 看门狗使用
5
华为路由交换综合实验 ---IA阶段
6
查看显卡报错:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
7
Python入门:ChainMap 有效管理多个上下文
8
浅析mydumper
9
linux驱动学习(八) i2c驱动架构(史上最全) davinc dm368 i2c驱动分析
10
c语音学习笔记