云计算
路线3:APP
途径3涉及HBase APP的共享,腾讯、快手、滴滴、Pinterest、中国移动、中国人寿等多家公司的工程师与我们分享了h base在APP和实践中遇到的问题和经验。
途径3-1:h base at Tencent
PPT下载链接: http://t.cn/AijgoTGY
来自腾讯的工程师程广旭给我们带来了HBase在腾讯业务中的应用场景和经验。
腾讯目前有90多个HBase集群,最大的集群有500多个节点。 腾讯内的很多业务都有腾讯视频、微信支付、腾讯云等使用HBase服务。 首先,我们分享了使用HBase迁移数据的经验。 复制和导出快照。 在实际使用中,业务每天的数据量很大,需要存储这些数据的周期可能很大,也可能很小。 因此,采用了天分表方式。 这意味着每天都要制作新的表。 对于过期的数据,直接删除当天的表就可以了。 接下来共享了带宽优化。
写入HBase的流量主要包括五个部分。
1 .书写,2.WAL,3.Flush,4.Small Compaction,5.Major Compaction。 优化方法是打开单元格块的压缩。 2 .墙压缩。 增大内存,减少闪存,减少计算。 减少计算机线程的数量。 关闭合并。 6 .按天制作表格。 最后,介绍了如何共享RestServer。 为每个HBase群集构建RestServer时,如果群集的读取请求较少,则会浪费群集的RestServer资源。 对腾讯进行了改进,以允许RestServer访问多个HBase群集,并记录哪些表可以通过这种方式访问mysql。
途径3-2:h base at kuai shou
PPT下载链接:
http://t.cn/AijgodXA
来自快手的工程师徐明为我们分享了HBase在快手中的应用与实践。
快手每天都有大量的用户上传大量的视频。 这部分视频的大部分是数MB的对象,其保存方案是:数据直接保存在HDFS中,数据索引保存在HBase中,最新数据保存在memcache中。
为了提高HBase的可用性并加快故障恢复,快速研究包含master、agent和sniffer三个组件的hawk系统,检查是否有多个代理投票并挂起一个节点,以实现sniffer 为了加速分离日志和辅助注册的过程,我们迅速进行了一些优化。 客户端确保主要有问题的节点的注册位置被快速清理。
RSGroup功能也被快速手大量使用,进行了几个优化。 一个是添加了故障RS组,当某个RS组的所有节点挂起时,从该故障RS组中选择机器; 一是增加了Global RSGroup,主要满足监控需求。 因为hbase的canary表需要分布在每台机器上。
快速手还分享了如何使用HBase存储和分析大量数据。 例如,为了解决计算用户剩余数量的问题,使用SQL运行缓慢,并快速使用了Bitmap解决方案。 将需要提取的维转换为Bitmap,使用空格减少消耗时间。 使用MR将选定的维转换为Bitmap,将Bitmap切成小块,并将Bitmap数据和元读取到HBase中。
途径3-3:h base at Didi
PPT下载链接:
http://t.cn/AijgK2qq
来自滴滴的工程师唐天航给我们带来了HBase在滴滴的业务中的应用场景和经验。
滴(国内的HBase集群7个,海外国际化集群4个。 覆盖滴滴全部业务线,目前服务项目约200多个,数据水平为PB级。
HBase的滴滴使用主要有两个场景。 1 .包括使用离线数据查询、Phoenix、Kylin和openTSDB。 2.GeoMesa系统建立的轨迹数据系统,可用于实时查询、监测、特征工程的数据挖掘。 GeoMesa系统包括支持Native API、MR/BulkLoad和StreamingSQL的导入接口,以及支持SparkCore、SparkSQL、CQL和GeoServer的扩展这样使用GeoMesa具有基于Hadoop生态的优势: 1、开箱即用2、支持类SQL文本语言3、可横向扩展。
在实践中改良zookeeper的优点是,将服务器和客户端依赖的ZK分离开来,在由于客户端的突然大量访问导致ZK无法使用的情况下,不影响服务器端。 ( HBASE-20159,ZOOKEEPER-832 )。 滴到HBase/Phoenix的改进主要是Quota设置、复制和查询优化( HBASE-21964、HBASE-22620、PHOENIX-5242 ) )。
最后,滴滴建立了从客户端到HAProxy,再到Thriftserver和QueryServer,随后到Hbase的多用户全链路跟踪,从而更有效地提高了运维效率。
路线3-4:phoenixbestpracticeinchinalifeinsurancecompany
PPT下载链接: http://t.cn/AijgKfM4
中国人寿的工程师袁利鸥与我们分享了Phoenix在中国人寿的最佳实践
中国人寿目前总节点数为200多个,Phoenix集群节点30多个。 整个集群的数据量为1300T,HBase单表最多为30T,每天执行大约上百个脚本。
Phoenix在中国人寿的应用场景:数据源由核心交易系统生成,通过SharePlex命中Kafka,数据通过Kafka实时访问Phoenix集群,通过查询服务向APP传递权益信息从物理体系结构的角度看,最底层是Phoenix群集,有两个向上的链路。 一个是phoenix网关,另一个是实时查询服务,通过负载平衡被Weblogic群集接受。
袁利鸥介绍了Spark Streaming的设计。 1、对于统一的表,增加记录更新时间、删除或插入操作等的控制字段。 2、实时同步程序由表名或统计字段区分。
袁利鸥接着介绍了Phoenix的优化,将Phoenix的系统表作为一个组,数据表归入另一个组。 客户端不需要每天提取一次元数据,然后访问Phoenix系统表,从而减少了负载。 基于HBase的优化包括1、区域平衡表等。 2、G1GC
3、手动合并
途径3-5:hbasepracticeinchinamobile
PPT下载链接: http://t.cn/AijgOxGa
中国移动苏州研发中心Hbase负责人陈叶超介绍了Hbase在中国移动的实践
中国移动目前拥有约6000个物理节点,100多个集群,数十PB的数据,单集群最多600个节点,单表最多1.6PB,最多3000万次并发访问,存储的数据以高压缩率压缩,存储
HBase在中国移动的几个应用场景:1.在北京移动的流量列表,比如手机使用流量,这可以在掌上营业厅查询。 2、DPI数据主要涉及信令,并存在若干网络优化设计。 3、监控和日志,包括小照片、用户标签、爬虫和营销等。
中国移动在实践中通过数据采样解决BulkLoad的数据倾斜问题。 通过在Flush和BulkLoad阶段都不打开数据压缩,而仅在compaction阶段使用,提高读写性能。 混合使用SSD/HDD磁盘,compaction的数据保存到HDD磁盘。 在更好地使用固态硬盘方面,中国移动做了以下工作。 1、backport HSM To HBase 1.2.6版。 2、所有用户来的写入路径都是固态硬盘,写入性能提高了50%的u3002。 此外,中国移动还开发了HBase集群智能排序工具Slider和RegionServerGroup,用于控制资源分配,并基于Region建立了一套权限认证体系。
途径3-6:recentworkonhbaseatpinterest
PPT下载链接: http://t.cn/AijgO0KU
来自Pinterest的技术lead徐良鸿分享了HBase在Pinterest上的最新进展
Pinterest目前集群规模为50台,全部导入AWS,数据量约为PB级。 从2013年开始使用h base 0.94,2013年升级到了1.2版。
Pinterest通过Apache Omid实现了对HBase事务的支持,使用中发现Omid存在性能瓶颈。 之后,研究了Sparrow系统。 主要改进包括: 1、将commit操作移动到客户端,解决传输管理器的单点问题。 2 )将Transaction Manager更改为多线程实现后,begin操作无需等待commit完成。 Sparrow与Omid相比,相对于P99延迟,Begin平台降低了100倍,commit平台也降低了3倍。
Pinterest自主研究了Argus系统,并与Kafka结合使用,提供了WAL通知机制。 可能需要通知机制的数据在写入client时添加标签,这些标签传递到WAL级别,通过Kafka为Argus Observer提供WAL进行数据处理,处理方法由用户自定义。
Pinterest基于开放源代码Lily实现Ixia,用于实时构建HBase的辅助索引,并集成Muse实现类SQL查询。 的实现摘要:写入HBase的数据传递给复制代理,通过Kafka命中Indexer,索引管理器读取HBase数据列并在需要索引时将数据发送到Muse
徐良鸿介绍了Argus和Ixia设计的优点。 1、基于异步复制机制,对写入影响很小。 2、能够独立于HBase系统,分别运行,及时进行数据处理。
途径3-7h base at Tencent cloud
PPT下载链接: http://t.cn/AijgOeGJ
腾讯的工程师陈龙为我们分享了HBase腾讯云上的经验。
云上的服务会出现很多管理和用户相关的问题。 陈龙解释了云服务的三大挑战: 1、大量的技术咨询工作。 2、紧急情况处理。 3、故障定位分析。 结合两个案例分析云服务的课题。
腾讯云在监控方面,通过OpenTSDB收集table和region的metirc,用户可以登录云监控,将Qps设置为某个阈值后进行反向通知。
陈龙分析说,云上故障有四种原因:
1、外部因素如资源泄露、大量请求、coprocessor问题
2、硬件元件、磁盘、网络、CVM、资源
3、存储元素、数据块丢失,读写超时
4、组成部分、jvm、memstore、blockcache、flushsize
信息云通过提供文档、工具和监控三种方式,解决了云中遇到的许多问题。 陈龙最后分享了监控系统的框架。 我们共享了云管理服务的体系结构,包括快速扩展和群集缩小。
请注明出处“小米云技术”
详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn