多语言展示
当前在线:641今日阅读:113今日分享:31

linux下的Spark的安装与案例

Spark,Scala的安装与案例
工具/原料
1

电脑已安装linux虚拟机

2

本文用的ubuntu14

方法/步骤
1

首先确定环境路径我的是export HADOOP_HOME=/home/chen-pc/hadoopexport JAVA_HOME=/usr/lib/jvm/jdk8export JRE_HOME=${JAVA_HOME}/jre

3

l 安装Spark1.Spark官网下载spark-1.5.1-bin-hadoop2.6.tgz并复制到虚拟机Ubuntu1经同学交流并查文档测试,spark1.6与scala2.10兼容性差所以改spark1.52.执行命令:   2.1解压到该路径     sudo mkdir /usr/lib/spark     tar zxvf spark-1.5.1-bin-hadoop2.6.tgz     mv spark-1.5.1-bin-hadoop2.6 spark     sudo mv spark /usr/lib/spark2.2配置SPARK_HOME     sudo vi /etc/profile           2.3添加如下环境     export SPARK_HOME=/usr/bin/spark1.5     export PATH=.:$SPARK_HOME/bin:$PATH

4

修改Spark配置文件 1.复制slaves.template和 spark-env.sh.template各一份      cp  spark-env.sh.template  spark-env.sh      cp  slaves.template slaves2.slaves,此文件是指定子节点的主机,直接添加子节点主机名即可     vim slaves     将slaves内的localhost删去,     改为master和slave如下(按照自己集群机器数量以及名字添加),保存退出         在spark-env.sh末端添加如下几行:     按照自己的实际情况将主要修改参数为#JDK安装路径export JAVA_HOME=/usr/lib/jvm/jdk8#SCALA安装路径export SCALA_HOME=/usr/lib/scala/scala #主节点的IP地址export SPARK_MASTER_IP=10.8.163.177#分配的内存大小export SPARK_WORKER_MEMORY=512m#指定hadoop的配置文件目录export HADOOP_CONF_DIR=/home/chen-pc/hadoop/etc/hadoop3.vim ~/.bashrc     添加以下内容     #SPARK     export SPARK_HOME=/usr/lib/scala/scala      export PATH=${SPARK_HOME}/bin:$PATH保存, 然后 source ~/.bashrc 使其生效4.输入spark-shell5.结果如下:

注意事项

spark单机环境启动时,对hostname和IP很敏感,而我们在配置好集群环境后,以单机模式启动,就会出现一些问题。 所以最简单快捷的方法就是注释掉集群环境的配置语句,等以集群模式启动时,再更改回来。

推荐信息