Thrift 部署 发表于 2018-04-03 | 分类于 ai Thrift服务是帮助Jupyter Notebook访问HBase,安装后我们就可以在程序中直接访问HBase了。 Quick Start下载安装按照之前的规划表,我们会在node3中启动Thrift服务,所以在这篇文章我们选择在node3中进行配置安装。 登陆官方网站下载Thrift安装包,版本0.10.0,下载完成后解压并进入该文件夹。 运行如下命令进行安装: 阅读全文 »
Jupyter 部署 发表于 2018-04-02 | 分类于 ai Jupyter Notebook 是一个Python在线编辑器,在机器学习领域很流行,调试代码也很方便。当然你可以选择其他编辑器。因为后面的示例会有一部分使用Python完成,所以这篇我们来部署Jupyter。 Quick StartAnaconda安装Anaconda是Python的版本管理工具,登陆官方网站下载安装包,其安装文件分为Python3.x与Python2.7版本。 阅读全文 »
HBase 部署 发表于 2018-04-02 | 分类于 ai 完成之前的章节,我们已经将Hadoop集群与Spark计算引擎成功部署在4个节点中了。你可以使用Java或者Scala语言(这里推荐Scala)进行开发,并可以用Spark正常进行数据挖掘了。这章我们讲HBase的部署,基本与数据存储有关。 Quick Start下载安装按照之前的规划表,我们会在node3中启动HBase的主进程,在node2中启动备用进程,所以在这篇文章我们选择在node3中进行配置。 登陆node3节点,并下载HBase安装包,版本1.3.1,下载完成后解压(文件目录还是统一放在/opt路径下)并进入该文件夹。 阅读全文 »
Spark 部署 发表于 2018-03-28 | 分类于 ai Spark是内存式计算引擎,为了让我们的计算速度更快,计算更多复杂的模型。这篇文章我们部署它,之后我们编写的代码都将跑在Spark中。 Quick Start下载安装登陆官方网站,下载版本为2.2.1,下载完成后解压(文件目录还是统一放在/opt路径下)并进入该文件夹,运行如下命令: 注:从2.0版本开始,缺省支持Scala2.11版本,如果你习惯使用其他版本的Scala,请查看官网 1cp conf/spark-env.sh.template conf/spark-env.sh 阅读全文 »
Hadoop 基础教程[系列] 发表于 2018-03-20 | 分类于 ai 前言这一系列的文章主要介绍,Hadoop基础,说明各个工具的作用及用途,相互之间的关系。 目录 HDFS MapReduce Zookeeper 关系架构 阅读全文 »
HDFS 部署 发表于 2018-03-20 | 分类于 ai 这篇文章我们将按照规划方案配置HDFS,从4台中任一选择一台进行配置,本文选择node0。 Quick Start下载及Java配置登陆官方网站,下载hadoop.tar.gz文件,本文所使用的版本为2.7.4,下载完成后解压并进入该文件夹,修改etc/hadoop/hadoop-env.sh文件 1JAVA_HOME=/opt/jdk1.8.0_65 阅读全文 »
YARN 部署 发表于 2018-03-20 | 分类于 ai 上一篇文章我们已经完成了HDFS系统的部署,接下来我们开始YARN的配置,它是资源调度很重要的部分。依然选择在node0节点上进行配置。 Quick StartMapReduce 资源调度配置Hadoop中计算引擎的运行方式有很多,在企业级应用中我们选择yarn作为资源调度的方式。 配置MapReduce的资源调度方式复制etc/hadoop/mapred-site.xml.template为mapred-site.xml,并添加如下配置项: 阅读全文 »
ZooKeeper 部署 发表于 2018-03-19 | 分类于 ai ZooKeeper是分布式应用程序协调服务,在分布式系统中必不可少。它是为分布式应用提供一致性服务的软件,所以我们首先来安装配置它。 安装前,我们需要先准备好安装包,点击官方下载地址,本文所使用的版本是3.4.10 Quick Start创建目录 在解压后的文件夹中创建一个名为tmp文件夹,作为其工作目录。 再创建一个名为zk_data文件夹,作为其数据存储目录。 阅读全文 »
分布式平台前期规划 发表于 2018-03-17 | 分类于 ai 完成上一篇文章《服务器批量安装》的内容后,我们已经拥有了4台Linux服务器,且相互之间网络可以互通,并且正常运行SHH服务。硬件环境已经准备完成,这篇文章我们将开始讲述Hadoop前期规划的准备工作。Hadoop是一系列工具的集合,如何合理的规划这些工具以及分配服务器资源,是一个非常重要的工作。 Quick Start主机名配置我将分别修改主机名为node0,node1,node2,node3。方便教程的讲述,也方便ssh中的操作。选择其中一台服务器,root用户登陆。 阅读全文 »
服务器批量安装 发表于 2018-03-16 | 分类于 ai 在安装Hadoop分布式系统之前,我们需要准备好服务器资源,如果采用云服务器,可以跳过此篇文章。批量无人值守安装操作系统,此次示例系统为CentOS7.x且推荐安装X window用户界面,后面会用到,服务器数量为4台,当然你可以使用大于等于3台以上数量的机器。 在4台机器中,随意选择1台安装服务。注:推荐直接使用实体机进行安装,或者非VMware的虚拟机,否则无人值守批量安装系统时可能会出错。 阅读全文 »