win7系统配置spark2.2支持scala和python语言开发

没有水的鱼 · 发表于 2018-5-24 10:24:53

前提：win7中先安装好python3.5和scala运行环境，本文重点不讲解该两种语言怎么安装，网上很容易找到配置方法。

此次重点是分享win7系统里如何实现spark2.2大数据运算框架环境。找了很多资料别人做过的相关配置，比较无耐，走了很多湾路，最终让我整成功了。
环境变量path值如下图：内容也可以复制粘贴。
;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;%SPARK_HOME%\bin;%SPARK_HOME%\sbin;C:\Python35;C:\Python35\Scripts;C:\Python35\Lib\site-packages;

pah环境变量

scala环境变量
JAVA环境的安装，建议安装在C:\java目录，通过jdk默认安装位置是C:\Program Files\java，但jdk默认安装位置会让Hadoop报错，找不到JAVA。原因是目录Program Files 之间有空格，字符长度过长问题会在CDM的DOS环境中显示Program ~1之类的缩写字符串导致Hadoop的报错。

JAVA环境的安装配置
HADOOP_HOME配置目录，你可以自定义位置，不一定是C盘，图中调置是在G盘，是因为我的G盘空间大，HADOOP本身运行需要足够大的空间。

HADOOP_HOME配置
HADOOP_HOME配置好之后，需要使用命令权限配置。在DOS命令窗口敲入
G:\hadoop-2.6.5\bin\winutils.exe chmod -R 777 C:\tmp\hive
此处需要注意的是winutils.exe需要对应的版本，此文件区分32位和64位，没有找相对的版本，同样会出现报错。
如果都正常，可以运行hadoop了，如下图:

hadoop运行
我下载的spark-2.2.0-bin-hadoop2.6 ，位置放G盘，G:\spark-2.2.0-bin-hadoop2.6，存放位置没有什么讲究的。核心是G:\spark-2.2.0-bin-hadoop2.6\python的pyspark复制到C:\Python35\Lib\site-packages目录下。

找到G:\spark-2.2.0-bin-hadoop2.6\python的pyspark目录

复制后目录结果
到这一步还没有完，还需要安装python库py4j，安装命令方法：pip3 install py4j ，完成之后来看看运行的情况。

win7系统完美支持python版的spark2.2
再来看看支持scala语言的spark2.2情况，输入spark-shell就看到了下面图示了。

win7系统完美支持scala版的spark2.2
好了，到此win7中实现spark2.2同时支持python和scala语言环境了。如果大家安装过程遇到问题，可以私信发给我，我可以提供完整安装包。

		自动登录	找回密码
密码			注册