HBAseconAsia2019途径3概述回顾--陈奇网络工作室

云计算

路线3:APP

途径3涉及HBase APP的共享，腾讯、快手、滴滴、Pinterest、中国移动、中国人寿等多家公司的工程师与我们分享了h base在APP和实践中遇到的问题和经验。

途径3-1:h base at Tencent

PPT下载链接： http://t.cn/AijgoTGY

来自腾讯的工程师程广旭给我们带来了HBase在腾讯业务中的应用场景和经验。

腾讯目前有90多个HBase集群，最大的集群有500多个节点。腾讯内的很多业务都有腾讯视频、微信支付、腾讯云等使用HBase服务。首先，我们分享了使用HBase迁移数据的经验。复制和导出快照。在实际使用中，业务每天的数据量很大，需要存储这些数据的周期可能很大，也可能很小。因此，采用了天分表方式。这意味着每天都要制作新的表。对于过期的数据，直接删除当天的表就可以了。接下来共享了带宽优化。

写入HBase的流量主要包括五个部分。

1 .书写，2.WAL，3.Flush，4.Small Compaction，5.Major Compaction。优化方法是打开单元格块的压缩。 2 .墙压缩。增大内存，减少闪存，减少计算。减少计算机线程的数量。关闭合并。 6 .按天制作表格。最后，介绍了如何共享RestServer。为每个HBase群集构建RestServer时，如果群集的读取请求较少，则会浪费群集的RestServer资源。对腾讯进行了改进，以允许RestServer访问多个HBase群集，并记录哪些表可以通过这种方式访问mysql。

途径3-2:h base at kuai shou

PPT下载链接：

http://t.cn/AijgodXA

来自快手的工程师徐明为我们分享了HBase在快手中的应用与实践。

快手每天都有大量的用户上传大量的视频。这部分视频的大部分是数MB的对象，其保存方案是：数据直接保存在HDFS中，数据索引保存在HBase中，最新数据保存在memcache中。

为了提高HBase的可用性并加快故障恢复，快速研究包含master、agent和sniffer三个组件的hawk系统，检查是否有多个代理投票并挂起一个节点，以实现sniffer 为了加速分离日志和辅助注册的过程，我们迅速进行了一些优化。客户端确保主要有问题的节点的注册位置被快速清理。

RSGroup功能也被快速手大量使用，进行了几个优化。一个是添加了故障RS组，当某个RS组的所有节点挂起时，从该故障RS组中选择机器；一是增加了Global RSGroup，主要满足监控需求。因为hbase的canary表需要分布在每台机器上。

快速手还分享了如何使用HBase存储和分析大量数据。例如，为了解决计算用户剩余数量的问题，使用SQL运行缓慢，并快速使用了Bitmap解决方案。将需要提取的维转换为Bitmap，使用空格减少消耗时间。使用MR将选定的维转换为Bitmap，将Bitmap切成小块，并将Bitmap数据和元读取到HBase中。

途径3-3:h base at Didi

PPT下载链接：

http://t.cn/AijgK2qq

来自滴滴的工程师唐天航给我们带来了HBase在滴滴的业务中的应用场景和经验。

滴(国内的HBase集群7个，海外国际化集群4个。覆盖滴滴全部业务线，目前服务项目约200多个，数据水平为PB级。

HBase的滴滴使用主要有两个场景。 1 .包括使用离线数据查询、Phoenix、Kylin和openTSDB。 2.GeoMesa系统建立的轨迹数据系统，可用于实时查询、监测、特征工程的数据挖掘。 GeoMesa系统包括支持Native API、MR/BulkLoad和StreamingSQL的导入接口，以及支持SparkCore、SparkSQL、CQL和GeoServer的扩展这样使用GeoMesa具有基于Hadoop生态的优势： 1、开箱即用2、支持类SQL文本语言3、可横向扩展。

在实践中改良zookeeper的优点是，将服务器和客户端依赖的ZK分离开来，在由于客户端的突然大量访问导致ZK无法使用的情况下，不影响服务器端。 ( HBASE-20159，ZOOKEEPER-832 )。滴到HBase/Phoenix的改进主要是Quota设置、复制和查询优化( HBASE-21964、HBASE-22620、PHOENIX-5242 ) )。

最后，滴滴建立了从客户端到HAProxy，再到Thriftserver和QueryServer，随后到Hbase的多用户全链路跟踪，从而更有效地提高了运维效率。

路线3-4:phoenixbestpracticeinchinalifeinsurancecompany

PPT下载链接： http://t.cn/AijgKfM4

中国人寿的工程师袁利鸥与我们分享了Phoenix在中国人寿的最佳实践

中国人寿目前总节点数为200多个，Phoenix集群节点30多个。整个集群的数据量为1300T，HBase单表最多为30T，每天执行大约上百个脚本。

Phoenix在中国人寿的应用场景：数据源由核心交易系统生成，通过SharePlex命中Kafka，数据通过Kafka实时访问Phoenix集群，通过查询服务向APP传递权益信息从物理体系结构的角度看，最底层是Phoenix群集，有两个向上的链路。一个是phoenix网关，另一个是实时查询服务，通过负载平衡被Weblogic群集接受。

袁利鸥介绍了Spark Streaming的设计。 1、对于统一的表，增加记录更新时间、删除或插入操作等的控制字段。 2、实时同步程序由表名或统计字段区分。

袁利鸥接着介绍了Phoenix的优化，将Phoenix的系统表作为一个组，数据表归入另一个组。客户端不需要每天提取一次元数据，然后访问Phoenix系统表，从而减少了负载。基于HBase的优化包括1、区域平衡表等。 2、G1GC

3、手动合并

途径3-5:hbasepracticeinchinamobile

PPT下载链接： http://t.cn/AijgOxGa

中国移动苏州研发中心Hbase负责人陈叶超介绍了Hbase在中国移动的实践

中国移动目前拥有约6000个物理节点，100多个集群，数十PB的数据，单集群最多600个节点，单表最多1.6PB，最多3000万次并发访问，存储的数据以高压缩率压缩，存储

HBase在中国移动的几个应用场景：1.在北京移动的流量列表，比如手机使用流量，这可以在掌上营业厅查询。 2、DPI数据主要涉及信令，并存在若干网络优化设计。 3、监控和日志，包括小照片、用户标签、爬虫和营销等。

中国移动在实践中通过数据采样解决BulkLoad的数据倾斜问题。通过在Flush和BulkLoad阶段都不打开数据压缩，而仅在compaction阶段使用，提高读写性能。混合使用SSD/HDD磁盘，compaction的数据保存到HDD磁盘。在更好地使用固态硬盘方面，中国移动做了以下工作。 1、backport HSM To HBase 1.2.6版。 2、所有用户来的写入路径都是固态硬盘，写入性能提高了50%的u3002。此外，中国移动还开发了HBase集群智能排序工具Slider和RegionServerGroup，用于控制资源分配，并基于Region建立了一套权限认证体系。

途径3-6:recentworkonhbaseatpinterest

PPT下载链接： http://t.cn/AijgO0KU

来自Pinterest的技术lead徐良鸿分享了HBase在Pinterest上的最新进展

Pinterest目前集群规模为50台，全部导入AWS，数据量约为PB级。从2013年开始使用h base 0.94，2013年升级到了1.2版。

Pinterest通过Apache Omid实现了对HBase事务的支持，使用中发现Omid存在性能瓶颈。之后，研究了Sparrow系统。主要改进包括： 1、将commit操作移动到客户端，解决传输管理器的单点问题。 2 )将Transaction Manager更改为多线程实现后，begin操作无需等待commit完成。 Sparrow与Omid相比，相对于P99延迟，Begin平台降低了100倍，commit平台也降低了3倍。

Pinterest自主研究了Argus系统，并与Kafka结合使用，提供了WAL通知机制。可能需要通知机制的数据在写入client时添加标签，这些标签传递到WAL级别，通过Kafka为Argus Observer提供WAL进行数据处理，处理方法由用户自定义。

Pinterest基于开放源代码Lily实现Ixia，用于实时构建HBase的辅助索引，并集成Muse实现类SQL查询。的实现摘要：写入HBase的数据传递给复制代理，通过Kafka命中Indexer，索引管理器读取HBase数据列并在需要索引时将数据发送到Muse

徐良鸿介绍了Argus和Ixia设计的优点。 1、基于异步复制机制，对写入影响很小。 2、能够独立于HBase系统，分别运行，及时进行数据处理。

途径3-7h base at Tencent cloud

PPT下载链接： http://t.cn/AijgOeGJ

腾讯的工程师陈龙为我们分享了HBase腾讯云上的经验。

云上的服务会出现很多管理和用户相关的问题。陈龙解释了云服务的三大挑战： 1、大量的技术咨询工作。 2、紧急情况处理。 3、故障定位分析。结合两个案例分析云服务的课题。

腾讯云在监控方面，通过OpenTSDB收集table和region的metirc，用户可以登录云监控，将Qps设置为某个阈值后进行反向通知。

陈龙分析说，云上故障有四种原因：

1、外部因素如资源泄露、大量请求、coprocessor问题

2、硬件元件、磁盘、网络、CVM、资源

3、存储元素、数据块丢失，读写超时

4、组成部分、jvm、memstore、blockcache、flushsize

信息云通过提供文档、工具和监控三种方式，解决了云中遇到的许多问题。陈龙最后分享了监控系统的框架。我们共享了云管理服务的体系结构，包括快速扩展和群集缩小。

请注明出处“小米云技术”

详情请访问云服务器、域名注册、虚拟主机的问题，请访问西部数码代理商官方网站： www.chenqinet.cn

相关推荐