博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
因为有它,Spark集群的交互操作变得更简单
阅读量:6672 次
发布时间:2019-06-25

本文共 3081 字,大约阅读时间需要 10 分钟。

hot3.png

Spark 2.X开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.X现在比以往更易使用。

在以前的Spark 1.x版本中,主要使用RDD(弹性分布式数据集),所有的操作都是基于RDD的转化,而在Spark 2.x中,主要基于DataFrame操作,所有的操作都是基于dataframe进行操作。

在本文中,我将重点介绍使用fea spk包如何进行spark的dataframe操作,为以后进行fea大数据分析做一下铺垫。使用这种方式的优势在于,可以利用spark集群的分布式原理,对大规模的数据进行分析和处理,步骤如下:

1、 创建spk连接

在spark 2.X的操作里面,使用SparkSession为Spark集群提供了唯一的入口点。val spk= SparkSession.builder.  master("local")  .appName("spark session example")  .getOrCreate()

而使用fea spk包,需要创建的spk连接如下

spk = df0 by spk.open_spark

2. fea spk dataframe

fea spk操作有2种dataframe,一种是pandas的dataframe,可以直接在fea里面运行dump查看。

另外一种是spark的dataframe,它能够进行各种各样的spark算子操作,比如group,agg等。

spark dataframe需要转换为pandas的dataframe才能运行dump命令查看,转换的原语如下:

pd= df by spk.to_DF  #spark dataframe df转换为pandas dataframe pd

dump pd   

#可以直接使用dump命令查看

sdf= spk,pd by spk.to_SDF 

#将pandas dataframe pd转换为spark dataframe sdf,以便进行spark的各种操作。

3. 使用spk连接读取数据

fea spk包支持各种各样的数据源。如,hive,mongodb,text,avro , json, csv , parquet,mysql,oracle等数据源,下面列举几个比较常见的数据源来进行演示。

  • csv数据源

a.csv文件格式如下:

id,hash

1,ssss

2,333

3,5567

使用如下命令,连接读取数据

df= spk by spk.load_csv with (header,/data/a.csv)

pd= @udf df by spk.to_DF

dump pd

  • Mysql数据源

Mysql中student_infos表数据如下:

使用如下命令,连接读取数据

df1= @udf spk by spk.load_mysql with (student_infos)

pd= @udf df1 by spk.to_DF

dump pd

4. 使用spk包 来进行groupby,agg操作

d.csv数据如下

df2= @udf spk by spk.load_csv with (header,/data/d.csv)

df3= @udf df2 by spk.group with (name) 

#对df2表的name字段进行group操作

df4= @udf df3 by spk.agg with (salary:avg,consumer:sum)

#对group之后的df3表的salary字段求均值,consumer字段进行求和操作

pd= @udf df4 by spk.to_DF

dump pd

210105_X2zZ_3115904.gif

5 使用spk包来进行join操作

b.csv数据如下

c.csv数据如下

df5= @udf spk by spk.load_csv with (header,/data/b.csv)

df6= @udf spk by spk.load_csv with (header,/data/c.csv)

df7= @udf df5,df6 by spk.join with (name:name1,inner)

#按照df5表的name字段,df6表的name1字段进行join内连接

pd= @udf df7 by spk.to_DF

dump pd

6. 使用spk包给表的一列或者多列重命名

对于上面的df7表,把name命名为name1,age命名为age1

df8=@udf df7 by spk.rename with (name:name1,age:age1)

pd=@udf df8 by spk.to_DF

dump pd

7 使用spk包对表按照某种条件进行过滤

以上面的df6表为例,统计income字段大于3000

df9= @udf df6 by spk.filter with (income>3000)

pd=@udf df9 by spk.to_DF

8. 使用spk包将表注册成能够使用SQL语句的表

以上面的df7表为例进行说明,将表注册为employee表

a= @udf df7 by spk.df_table with (employee)

使用SQL语句查询注册的表,返回DF

df10= @udf spk by spk.df_sql with (select * from employee where income>2000)

pd=@udf df10 by spk.to_DF

dump pd

9 将表保存为parquet文件格式

以df10为例,保存目录为hdfs的目录/user/root/employee.parquet

b=@udf df10 by spk.save_parquet with (employee.parquet)

 此外spk还有很多原语,暂时列举一部分,下面进行spk包机器学习的演示。

使用spk包进行机器学习,真正实现了分布式机器学习的思想,替代了原始的单机版本的机器学习,大大提高了机器学习的速度和吞吐量。目前spk包支持的机器学习还是比较完善的,包括逻辑回归,决策树,随机森林,贝叶斯,神经网络,Kmeans等算法。

10.使用随机森林进行分类

m1表的内容如下:

前面4个是特征,后面label为标签,有3种情况,0,1,2,下面使用随机森林算法进行模型的训练。注意,使用spk包进行机器学习,要求表的字段为double类型,所以要先进行转换。

m1= @udf m1 by spk.ML_double

md1= @udf m1 by spk.ML_rf with (maxDepth=5, numTrees=10)

md1是训练出的随机森林模型

下面进行预测,预测的表为m2,数据具有4个特征,不包括标签列,表格式如下

r1= @udf m2 by spk.ML_predict with (md1@public)

pd=@udf r1 by spk.to_DF

dump pd

prediction这列就是预测的结果

下面对模型进行打分

s1= @udf m1 by spk.ML_score with (md1@public)

dump s1

转载于:https://my.oschina.net/u/3115904/blog/967915

你可能感兴趣的文章