电脑已安装linux虚拟机
本文用的ubuntu14
首先确定环境路径我的是export HADOOP_HOME=/home/chen-pc/hadoopexport JAVA_HOME=/usr/lib/jvm/jdk8export JRE_HOME=${JAVA_HOME}/jre
l 安装Spark1.Spark官网下载spark-1.5.1-bin-hadoop2.6.tgz并复制到虚拟机Ubuntu1经同学交流并查文档测试,spark1.6与scala2.10兼容性差所以改spark1.52.执行命令: 2.1解压到该路径 sudo mkdir /usr/lib/spark tar zxvf spark-1.5.1-bin-hadoop2.6.tgz mv spark-1.5.1-bin-hadoop2.6 spark sudo mv spark /usr/lib/spark2.2配置SPARK_HOME sudo vi /etc/profile 2.3添加如下环境 export SPARK_HOME=/usr/bin/spark1.5 export PATH=.:$SPARK_HOME/bin:$PATH
修改Spark配置文件 1.复制slaves.template和 spark-env.sh.template各一份 cp spark-env.sh.template spark-env.sh cp slaves.template slaves2.slaves,此文件是指定子节点的主机,直接添加子节点主机名即可 vim slaves 将slaves内的localhost删去, 改为master和slave如下(按照自己集群机器数量以及名字添加),保存退出 在spark-env.sh末端添加如下几行: 按照自己的实际情况将主要修改参数为#JDK安装路径export JAVA_HOME=/usr/lib/jvm/jdk8#SCALA安装路径export SCALA_HOME=/usr/lib/scala/scala #主节点的IP地址export SPARK_MASTER_IP=10.8.163.177#分配的内存大小export SPARK_WORKER_MEMORY=512m#指定hadoop的配置文件目录export HADOOP_CONF_DIR=/home/chen-pc/hadoop/etc/hadoop3.vim ~/.bashrc 添加以下内容 #SPARK export SPARK_HOME=/usr/lib/scala/scala export PATH=${SPARK_HOME}/bin:$PATH保存, 然后 source ~/.bashrc 使其生效4.输入spark-shell5.结果如下:
spark单机环境启动时,对hostname和IP很敏感,而我们在配置好集群环境后,以单机模式启动,就会出现一些问题。 所以最简单快捷的方法就是注释掉集群环境的配置语句,等以集群模式启动时,再更改回来。