Evan Z

个人技术站


  • 首页

  • NBatis

  • React

  • KOA应用

  • 人工智能

  • 其他

  • 关于

  • 搜索

Thrift 部署

发表于 2018-04-03 | 分类于 ai

Thrift服务是帮助Jupyter Notebook访问HBase,安装后我们就可以在程序中直接访问HBase了。

Quick Start

下载安装

按照之前的规划表,我们会在node3中启动Thrift服务,所以在这篇文章我们选择在node3中进行配置安装。

登陆官方网站下载Thrift安装包,版本0.10.0,下载完成后解压并进入该文件夹。

运行如下命令进行安装:

阅读全文 »

Jupyter 部署

发表于 2018-04-02 | 分类于 ai

Jupyter Notebook 是一个Python在线编辑器,在机器学习领域很流行,调试代码也很方便。当然你可以选择其他编辑器。因为后面的示例会有一部分使用Python完成,所以这篇我们来部署Jupyter。

Quick Start

Anaconda

安装

Anaconda是Python的版本管理工具,登陆官方网站下载安装包,其安装文件分为Python3.x与Python2.7版本。

阅读全文 »

HBase 部署

发表于 2018-04-02 | 分类于 ai

完成之前的章节,我们已经将Hadoop集群与Spark计算引擎成功部署在4个节点中了。你可以使用Java或者Scala语言(这里推荐Scala)进行开发,并可以用Spark正常进行数据挖掘了。这章我们讲HBase的部署,基本与数据存储有关。

Quick Start

下载安装

按照之前的规划表,我们会在node3中启动HBase的主进程,在node2中启动备用进程,所以在这篇文章我们选择在node3中进行配置。

登陆node3节点,并下载HBase安装包,版本1.3.1,下载完成后解压(文件目录还是统一放在/opt路径下)并进入该文件夹。

阅读全文 »

Spark 部署

发表于 2018-03-28 | 分类于 ai

Spark是内存式计算引擎,为了让我们的计算速度更快,计算更多复杂的模型。这篇文章我们部署它,之后我们编写的代码都将跑在Spark中。

Quick Start

下载安装

登陆官方网站,下载版本为2.2.1,下载完成后解压(文件目录还是统一放在/opt路径下)并进入该文件夹,运行如下命令:

注:从2.0版本开始,缺省支持Scala2.11版本,如果你习惯使用其他版本的Scala,请查看官网
1
cp conf/spark-env.sh.template conf/spark-env.sh
阅读全文 »

Hadoop 基础教程[系列]

发表于 2018-03-20 | 分类于 ai

前言

这一系列的文章主要介绍,Hadoop基础,说明各个工具的作用及用途,相互之间的关系。

目录

  • HDFS

  • MapReduce

  • Zookeeper

  • 关系架构

阅读全文 »

HDFS 部署

发表于 2018-03-20 | 分类于 ai

这篇文章我们将按照规划方案配置HDFS,从4台中任一选择一台进行配置,本文选择node0。

Quick Start

下载及Java配置

登陆官方网站,下载hadoop.tar.gz文件,本文所使用的版本为2.7.4,下载完成后解压并进入该文件夹,修改etc/hadoop/hadoop-env.sh文件

1
JAVA_HOME=/opt/jdk1.8.0_65
阅读全文 »

YARN 部署

发表于 2018-03-20 | 分类于 ai

上一篇文章我们已经完成了HDFS系统的部署,接下来我们开始YARN的配置,它是资源调度很重要的部分。依然选择在node0节点上进行配置。

Quick Start

MapReduce 资源调度配置

Hadoop中计算引擎的运行方式有很多,在企业级应用中我们选择yarn作为资源调度的方式。

配置MapReduce的资源调度方式

复制etc/hadoop/mapred-site.xml.template为mapred-site.xml,并添加如下配置项:

阅读全文 »

ZooKeeper 部署

发表于 2018-03-19 | 分类于 ai

ZooKeeper是分布式应用程序协调服务,在分布式系统中必不可少。它是为分布式应用提供一致性服务的软件,所以我们首先来安装配置它。

安装前,我们需要先准备好安装包,点击官方下载地址,本文所使用的版本是3.4.10

Quick Start

创建目录

  1. 在解压后的文件夹中创建一个名为tmp文件夹,作为其工作目录。
  2. 再创建一个名为zk_data文件夹,作为其数据存储目录。
阅读全文 »

分布式平台前期规划

发表于 2018-03-17 | 分类于 ai

完成上一篇文章《服务器批量安装》的内容后,我们已经拥有了4台Linux服务器,且相互之间网络可以互通,并且正常运行SHH服务。硬件环境已经准备完成,这篇文章我们将开始讲述Hadoop前期规划的准备工作。Hadoop是一系列工具的集合,如何合理的规划这些工具以及分配服务器资源,是一个非常重要的工作。

Quick Start

主机名配置

我将分别修改主机名为node0,node1,node2,node3。方便教程的讲述,也方便ssh中的操作。选择其中一台服务器,root用户登陆。

阅读全文 »

服务器批量安装

发表于 2018-03-16 | 分类于 ai

在安装Hadoop分布式系统之前,我们需要准备好服务器资源,如果采用云服务器,可以跳过此篇文章。批量无人值守安装操作系统,此次示例系统为CentOS7.x且推荐安装X window用户界面,后面会用到,服务器数量为4台,当然你可以使用大于等于3台以上数量的机器。

在4台机器中,随意选择1台安装服务。注:推荐直接使用实体机进行安装,或者非VMware的虚拟机,否则无人值守批量安装系统时可能会出错。

阅读全文 »
123
Evan Zheng

Evan Zheng

这是一个以前端技术为主的技术博客,以原创为主,其中包括Nbatis持久层插件应用,ReactJS应用教程,KOA全栈架构应用,Hadoop大数据分布式架构,React Native手机应用开发,文章不定时更新中...

26 日志
5 分类
9 标签
联系我们 NPM
© 2016 — 2018 VYSPACE STUDIO