柴少鹏的官方网站 技术在分享中进步,水平在学习中升华

大数据(十四)flume实例部署

#我擦前面又把官网翻译了一遍,现在写一些例子把前面的知识捋一下,虽然前面又好多的source、channel、sink,但是实际用到的也不多。一、简单本机示例1.1 使用memory做channel、exec做source、file_roll做sink设置一个测试.conf:$ vim /home/flume/flume/conf/exec_test1.conf a1.sources = source1      &
作者:忙碌的柴少 分类:大数据 浏览:1875 评论:0

大数据(十三)flume筛选器

一、Flume channel Selectors(筛选器)如果没有指定类型,则默认为replicating(“复制”)。1.1 Replicating Channel Selector (default)selector.type  #默认值是replicating  组件类型名称需要replicating  selector.optional   #将被标记为可选的通道集合agent名称为a1,source为r
作者:忙碌的柴少 分类:大数据 浏览:2474 评论:0

大数据(十二)flume的source、sink、channel详解

http://blog.51niux.com/?id=196    #已经对flume进行了介绍,也参照官网搭建了简单的agent端,这里还是参照官网,将配置文件的各种参数记录一下。一、Flume Sources配置参数详解1.1 Avro Source       监听Avro端口并接收来自外部Avro客户端流的事件。 当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑。
作者:忙碌的柴少 分类:大数据 浏览:5646 评论:0

大数据(十一)flume介绍

flume要好好总结一下,15年接触flume的时候真的是资料太少了,基本就是抱着官网啃然后就一个flume群人多点进去问问题,然后网上的博客很少,现在好多了。当时学习源于美团的一片文章:https://tech.meituan.com/mt-log-system-arch.html    #棒的飞起,也可以看看其他的技术分享。flume官网:http://flume.apache.org/一、flume介绍(还是照着官网来)1.1 什么是flume?  
作者:忙碌的柴少 分类:大数据 浏览:3733 评论:3

大数据(十)学习kafka集群部署

一、kafka介绍官网:http://kafka.apache.org/ 1.1 kafka是什么?          ApacheKafka是一个分布式流媒体平台。  Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统
作者:忙碌的柴少 分类:大数据 浏览:3384 评论:0

大数据(九)部署Hive

一、Hive介绍Hive官网:https://hive.apache.org/1.1 hive简介        Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。        最初,Hive是由F
作者:忙碌的柴少 分类:大数据 浏览:2264 评论:2

大数据(八)学习部署Hbase

Hbase官网:http://hbase.apache.org/一、Hbase介绍1.1 Hbase简介        HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtab
作者:忙碌的柴少 分类:大数据 浏览:2327 评论:0

大数据(七)部署spark

Spark官网:http://spark.apache.org/一、Spark介绍1.1 Spark是什么?      Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加
作者:忙碌的柴少 分类:大数据 浏览:2406 评论:0

大数据(六)Zookeeper分布式集群的搭建

一、Zookeeper介绍官网介绍文档:http://zookeeper.apache.org/doc/trunk/zookeeperOver.html1.1 Zookeerper简介        ZooKeeper本质上是一个分布式的小文件存储系统。原本是Apache Hadoop的一个组件,后来被拆分为一个Hadoop的独立子项目,现已经成为 Apache 的顶级项目。     &
作者:忙碌的柴少 分类:大数据 浏览:1193 评论:0

Hadoop(五)HA高可用

前面我们玩的都是单点namenode,如果namenode出问题了后者说元数据丢失了一部分,那就呵呵哒了,这也是以前存在的一个很大的安全隐患,但是现在已经不是啥问题了。再来吹一波。HDFS就是Hadoop加DFS,所以我们这里就用Hadoop HA来统称了。一、Hadoop HA的发展史1.1 hadoop 1.0的单点问题在hadoop 1.0时代,只有一个Namenode,这也是被人胆小的地方,用各种措施来保证元数据的安全。如果NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。
作者:忙碌的柴少 分类:大数据 浏览:2065 评论:0