专利草稿.md 1.8 KB

《一种分布式通用任务管理方案》

《一种配置集中管理方法和系统》

《一种时序数据存储通用模型设计方法》

《一种巡检系统中轨迹雷同计算方法》

a) 发明背景,特别指出现有技术所存在的技术缺陷是由于哪种技术原因造成的

公司不断发展,物联网业务数据不断增长,每一秒钟都有百万个数据点要写入 TSDB,每天产生的数据点规模达到百亿量级,TSDB 每秒钟还要处理数万次查询请求,由于查询有一定的突发性,峰值的查询流量可达到常态流量的数百倍,且根据业务的需求,绝大多数的 请求都应该能在 500ms 返回结果给用户,可用性目标至少是 99.99%,为了满足以上。

鉴于此,提出一种时序数据存储通用模型,满足大小数据

基于关系型数据库时序存储设计

为了充分利用 tags + metric + timestamp HBase 的特性,我们借鉴了 OpenTSDB 的做法,将 RowKey 设计如下:

RowKey = entity_id + metric_id + timebase

  • entity_id 是由 tags 的经过 hash 得到的一个固定长度的值,hash 后原始字符串的自然顺序被打乱,使得 RowKey 能够相对均匀地分布在不同 HRegion 中。
  • metric_id 为 metric 的字符串 hash 值,同样是固定长度。
  • timebase 为 Unix 时间戳按照 1 小时(3600 秒)取整得到的数值,固定 4 个字节的长度 这样的设计有如下好处:
  • entity_id 和 metric_id 的散列使得数据相对均匀分布
  • timebase 置于 RowKey 的字节低位,使得同一个时间序列数据的 RowKey 连续分布,可以高效地按时间进行范围扫描
  • 固定长度的 RowKey 减少了空间浪费,同时前缀式的设计可以充分利用 HBase 的前缀压缩机制,进一步节省 RowKey 所占空间

一种