`
文章列表
一、服务器分布及相关说明 1、服务器角色 2、Hadoop(HDFS HA)总体架构  

Spark的YARN模式部署

 
1:Spark的编译 Spark可以通过SBT(Scala Build Tool)或者Maven来编译,官方提供的二进制安装文件是用Maven编译,如果是要在YARN集群上运行的话,还需要再用SBT编译一下,生成YARN client端使用的jar包;最好是直接对源码使用SBT进行编译而生成YARN client端使用的jar包。笔者在测试过程中,对Maven编译过的Spark进行SBT二次编译后,在运行部分例子的时候有错误发生。 A:Maven编译 笔者使用的环境曾经编译过Hadoop2.2.0(参见hadoop2.2.0源码编译(CentOS6.4)),所以不敢确定Maven编译过程 ...

spark 安装

环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3 折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。 1. 安装 JDK 1.7 yum search openjdk-devel sudo yum install java-1.7.0-openjdk-devel.x86_64 /usr/sbin/alternatives --config java /usr/sbin/alternatives --co ...
1:Spark Standalone Mode安装 A:部署包生成 首先,下载并解压缩Spark的源码,切换到解压缩所生成的目录,运行部署包生成程序make-distribution.sh: ./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz  spark源码根目录下的make-distribution.sh可以带以下参数: --tgz:在根目录下生成 spark-$VERSION-bin.tar.gz,不加参数是不生成tgz文件,只生成/dist目录。 --hadoop VERSION:打包时所用的Hadoop版本号 ...

Spark安装部署

Spark是UC Berkeley AMPLab开发的类MapRed计算框架。MapRed框架适用于batch job,但是由于它自身的框架限制,第一,pull-based heartbeat作业调度。第二,shuffle中间结果全部落地disk,导致了高延迟,启动开销很大。而Spark是为迭代式,交互式计算所生的。第一,它采用了actor model 的akka 作为通讯框架。第二, 它 使用了RDD分布式内存,操作之间的数据不需要dump到磁盘上,而是通过RDD Partition分 布 在各个节点内存中 , 极大的提高了数据间的流转, 同 时RDD之间维护了血统关系,一旦RDD fail ...
正准备将android的开发环境移至ubuntu下,因为相对来说linux对android还有些好处的。 比如去玩内核或相关的东西。 当然先去下载一个Sun的JDK(现在应该叫oracle的JDK,不过感觉还是SUN更明白)。下一个自解压的bin包,安装就是了。 安装完后就会在安装包的目录下生成一个jdk的文件夹,这就是jdk。 然后同样设置环境变量,方法很多。 我就直接改 /etc/profile。 再就是将我们装好的SUN JDK装到系统里, sudo update-alternatives --install /usr/bin/java java ~/java/jdk1.6 ...

HDFS详解

 
【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,H
1. 背景介绍   许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apache的chukwa,linkedin的kafka和cloudera的flume等。 ...
http://dongxicheng.org/recommend/
  Pentaho  Pentaho商业智能套件提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。 更多Pentaho信息   SpagoBI  商务智能套件SpagoBI提供一个基于J2EE的框架用于管理BI对象如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。它提供的BI管理器能够控制、校验、验证与分发这些BI对象。 SpagoBI特性包括支持Portal、report、OLAP、QbE、ETL、dashboard、文档管理、元数据管理、数据挖掘与地理信息分析。 更多SpagoBI信息   J ...
JDK内置工具使用 一、javah命令(C Header and Stub File Generator) 二、jps命令(Java Virtual Machine Process Status Tool) 三、jstack命令(Java Stack Trace) 四、jstat命令(Java Virtual Machine Statistics Monit
Mina Mina(Multipurpose Infrastructure for Network Applications) 是 Apache组织一个较新的项目,它为开发高性能和高可用性的网络应用程序提供了非常便利的框架。当前发行的 Mina 版本2.04支持基于 JavaNIO 技术的 TCP/UDP 应用程序开发、串口通讯程序,Mina 所支持的功能也在进一步的扩展中。目前,正在使用Mina的应用包括:Apache Directory Project、AsyncWeb、AMQP(Advanced MessageQueuing Protocol)、RED5 Server(Macromed ...
在网上貌似没有找到Jenkins的中文的太多的文档,有的都是关于Hudson的一些零零散散的,所以自己边学习边实践总结了以下系列文章,希望有助于大家对于Jenkins的使用。 本系列文章是基于我3年多的SCM+build release经验,总结了最常用的最基本功能,文章基本上来自于Jenkins官方网站的英文帮助的翻译和实际的例子和操作的截图,让大家能够快速直观地学习Jenkins。 Jenkins是Continous Integration Server,是Hadson的继续。 类似的产品: CruiseControl,BuildBot,TeamCity,BuildForge, El ...
**JUnit – 82.5%*** – 最多开发人员使用的测试框架 Jenkins – 70%º – 行业最广泛使用的CI服务器 **Git – 69%*** – 第一的版本控制技术 Hibernate – 67.5%* /º – 最广泛使用的ORM框架 Java 7 – 65% – SE开发的行业领导者 Maven – 64% – Java中最多使用的构建工具 Nexus – 64%º – 开发人员使用的主要资源库 MongoDB – 56%º – NoSQL技术的首要选择 FindBugs – 55%* /º – Java中最多使用的静态代码分析工具 Tomcat – ...
Global site tag (gtag.js) - Google Analytics