Thrift 部署

发表于 2018-04-03 | 分类于 ai

Thrift服务是帮助Jupyter Notebook访问HBase，安装后我们就可以在程序中直接访问HBase了。

Quick Start

下载安装

按照之前的规划表，我们会在node3中启动Thrift服务，所以在这篇文章我们选择在node3中进行配置安装。

登陆官方网站下载Thrift安装包，版本0.10.0，下载完成后解压并进入该文件夹。

运行如下命令进行安装：

阅读全文 »

Jupyter 部署

发表于 2018-04-02 | 分类于 ai

Jupyter Notebook 是一个Python在线编辑器，在机器学习领域很流行，调试代码也很方便。当然你可以选择其他编辑器。因为后面的示例会有一部分使用Python完成，所以这篇我们来部署Jupyter。

Quick Start

Anaconda

安装

Anaconda是Python的版本管理工具，登陆官方网站下载安装包，其安装文件分为Python3.x与Python2.7版本。

阅读全文 »

HBase 部署

发表于 2018-04-02 | 分类于 ai

完成之前的章节，我们已经将Hadoop集群与Spark计算引擎成功部署在4个节点中了。你可以使用Java或者Scala语言（这里推荐Scala）进行开发，并可以用Spark正常进行数据挖掘了。这章我们讲HBase的部署，基本与数据存储有关。

Quick Start

下载安装

按照之前的规划表，我们会在node3中启动HBase的主进程，在node2中启动备用进程，所以在这篇文章我们选择在node3中进行配置。

登陆node3节点，并下载HBase安装包，版本1.3.1，下载完成后解压（文件目录还是统一放在/opt路径下）并进入该文件夹。

阅读全文 »

Spark 部署

发表于 2018-03-28 | 分类于 ai

Spark是内存式计算引擎，为了让我们的计算速度更快，计算更多复杂的模型。这篇文章我们部署它，之后我们编写的代码都将跑在Spark中。

Quick Start

下载安装

登陆官方网站，下载版本为2.2.1，下载完成后解压（文件目录还是统一放在/opt路径下）并进入该文件夹，运行如下命令：

注：从2.0版本开始，缺省支持Scala2.11版本，如果你习惯使用其他版本的Scala，请查看官网

1	cp conf/spark-env.sh.template conf/spark-env.sh

阅读全文 »

Hadoop 基础教程[系列]

发表于 2018-03-20 | 分类于 ai

前言

这一系列的文章主要介绍，Hadoop基础，说明各个工具的作用及用途，相互之间的关系。

HDFS 部署

发表于 2018-03-20 | 分类于 ai

这篇文章我们将按照规划方案配置HDFS，从4台中任一选择一台进行配置，本文选择node0。

Quick Start

下载及Java配置

登陆官方网站，下载hadoop.tar.gz文件，本文所使用的版本为2.7.4，下载完成后解压并进入该文件夹，修改etc/hadoop/hadoop-env.sh文件

1	JAVA_HOME=/opt/jdk1.8.0_65

阅读全文 »

YARN 部署

发表于 2018-03-20 | 分类于 ai

上一篇文章我们已经完成了HDFS系统的部署，接下来我们开始YARN的配置，它是资源调度很重要的部分。依然选择在node0节点上进行配置。

Quick Start

MapReduce 资源调度配置

Hadoop中计算引擎的运行方式有很多，在企业级应用中我们选择yarn作为资源调度的方式。

配置MapReduce的资源调度方式

复制etc/hadoop/mapred-site.xml.template为mapred-site.xml，并添加如下配置项：

阅读全文 »

ZooKeeper 部署

发表于 2018-03-19 | 分类于 ai

ZooKeeper是分布式应用程序协调服务，在分布式系统中必不可少。它是为分布式应用提供一致性服务的软件，所以我们首先来安装配置它。

安装前，我们需要先准备好安装包，点击官方下载地址，本文所使用的版本是3.4.10

Quick Start

创建目录

在解压后的文件夹中创建一个名为tmp文件夹，作为其工作目录。
再创建一个名为zk_data文件夹，作为其数据存储目录。

阅读全文 »

分布式平台前期规划

发表于 2018-03-17 | 分类于 ai

完成上一篇文章《服务器批量安装》的内容后，我们已经拥有了4台Linux服务器，且相互之间网络可以互通，并且正常运行SHH服务。硬件环境已经准备完成，这篇文章我们将开始讲述Hadoop前期规划的准备工作。Hadoop是一系列工具的集合，如何合理的规划这些工具以及分配服务器资源，是一个非常重要的工作。

Quick Start

主机名配置

我将分别修改主机名为node0，node1，node2，node3。方便教程的讲述，也方便ssh中的操作。选择其中一台服务器，root用户登陆。

阅读全文 »

服务器批量安装

发表于 2018-03-16 | 分类于 ai

在安装Hadoop分布式系统之前，我们需要准备好服务器资源，如果采用云服务器，可以跳过此篇文章。批量无人值守安装操作系统，此次示例系统为CentOS7.x且推荐安装X window用户界面，后面会用到，服务器数量为4台，当然你可以使用大于等于3台以上数量的机器。

在4台机器中，随意选择1台安装服务。注：推荐直接使用实体机进行安装，或者非VMware的虚拟机，否则无人值守批量安装系统时可能会出错。

阅读全文 »

Evan Zheng

这是一个以前端技术为主的技术博客，以原创为主，其中包括Nbatis持久层插件应用，ReactJS应用教程，KOA全栈架构应用，Hadoop大数据分布式架构，React Native手机应用开发，文章不定时更新中...

联系我们 NPM

Thrift 部署

Quick Start

下载安装

Jupyter 部署

Quick Start

Anaconda

安装

HBase 部署

Quick Start

下载安装

Spark 部署

Quick Start

下载安装

Hadoop 基础教程[系列]

前言

目录

HDFS

MapReduce

Zookeeper

关系架构

HDFS 部署

Quick Start

下载及Java配置

YARN 部署

Quick Start

MapReduce 资源调度配置

配置MapReduce的资源调度方式

ZooKeeper 部署

Quick Start

创建目录

分布式平台前期规划

Quick Start

主机名配置

服务器批量安装