加入收藏 | 设为首页 | 会员中心 | 我要投稿 牡丹江站长网 (https://www.0453zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

2019大数据产业峰会|中国信通院王妙琼:时序数据库性能测试基准解读

发布时间:2019-06-12 07:40:01 所属栏目:产品 来源:中国IDC圈
导读:副标题#e# 为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。
副标题[/!--empirenews.page--]

为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

6月5日,在大数据前沿技术分论坛上,中国信通院云计算与大数据研究所工程师王妙琼带来了《时序数据库性能测试基准解读》。

01102

王妙琼:各位嘉宾大家上午好,我是来自中国信通院云大所的工程师,接下来向大家介绍我们在时序数据库性能基准方面做的工作。

光聊性能测试可能有些枯燥,在这里先介绍一下我们在时序数据库方面的前期铺垫。从2018年年初开始,大数据技术标准推进委员会(CCSA TC601)联合工业互联网产业联盟(AII)工业大数据特设组开始工业数据管理和应用方面的研究。我们抓住了工业数据管理和应用中一个比较关键的点,就是时序数据库。在传统的工业中使用较多的叫实时数据库,是业生产运营环节中的重要支撑,连接着生产各环节的监控数据,实时地对外反馈给监控,监测工业生产运行的情况。

随着工业互联网进一步推进,对于数据库的要求进一步的提升,随着传感器数量的增加,数据类型和规模都在不停的变大,并且数据从简单的写入和实时反馈需求逐渐转移到大量的分析需求,所以传统工业上使用的实时数据库也在做一定的转型,而在互联网和物联网领域诞生出的时序数据库也在逐步向工业互联网的应用场景进行探索。

我们可以发现在工业场景里的监测数据都是时序数据,而这些数据和物联网、互联网的监控数据有些极其相似的内容,包括他们的数据操作非常类似。一个是数据带有时间戳,而且是按顺序生成的。第二数据都是结构化的,很少有更新或者删除的操作。数据一般是按到期日期来管理,主要以写操作为主、读操作为辅。数据都有统计和聚合的计算要求,而且长度一般不会很大,一般传感器的数据都会非常短,但是量会非常大。最后一个相似点是,做分析的时候数据一般会按照指定时间段或者数值范围做聚合计算。

我们在2018年上半年联合了很多家企业一起制定了时序数据库功能相关的标准,看在不同的业务需求场景下,是不是有一套统一的规则可以评判一个时序数据库是否符合需求,是否可以用统一的标准判断它的能力。

时序数据库的功能标准主要是六大块内容:功能、兼容能力、安全性、管理能力、容错能力、扩展性。这些内容综合了互联网、物联网、工业互联网这些场景里通用的需求,也保留了时序数据库各家产品的特质。我们可以看到有些功能是时序数据库特有的,比如说时间序列可扩展以及最新数据查询。最新数据查询主要是用于一些实时监控场景,数据导入到数据库里以后能不能及时反映到监控上。还有一些新的需求,比如物联网方面地理位置的查询需求,从时间的维度的分析增加到了空间的维度。还有互联网生态的对接,比如在兼容对接里有大数据处理的对接,现在很多时序数据库已经不仅仅满足于封闭环境的需求,需要结合一些大数据的分析能力提供更加丰富的使用场景。在安全性方面,有一条是加密通信,这也是一些生产现场所需要的安全性的要求,我们把这一条也加入了功能性标准里。

基于这个标准,在2018年下半年我们开展了一轮测试,有7家公司参加。这7家公司有主流的云服务厂商百度、阿里、华为、腾讯,有创业公司比如涛思数据,有传统工业信息化企业朗坤智慧,他们侧重在不同的领域。从测试情况来看,这些企业都通过了基础的必选测评项,在可选项里也都有各自领域的发挥。

我们在测试结束后总结出来当前时序数据库所具备的一些特点,有如下几点:

1、架构多样化。现在时序数据库架构都是非常多样的,除了传统的关系型架构之外,更多会使用一些NoSQL架构来增加扩展性,还有时序数据库是基于搜索引擎做的,另外一些是纯自研的架构。

2、主流的时序数据库都是分布式架构,传统做信息化的时序数据库也在往分布式架构演进。

3、数据结构方面分单值模型和多值模型两种。

4、生态对接,测试中所有数据库都可以满足与大数据平台对接和交互。

5、不强制SQL支持,但现在越来越多的时序数据库增加了这方面的功能以满足用户的使用需求。

6、需求转变,很明显时序数据库功能要求从快速的写入逐步转向大量的分析,传统的时间维度分析也在扩展到时间+空间的分析。

在完成功能方面的测试之后,今年接下来,我们计划做时序数据库性能方面的标准。性能是时序数据库非常重要的一块,但因为时序数据库大多数都是一些NoSQL或者自研的架构,所以现在业界还没有统一的标准来评判具体的性能要求。现做性能测试都是自家根据业务需求设计一些简单的性能测试场景或者根据客户定制化的要求做POC测试,没有统一的能达到工业级稳定性和性能的测试基准覆盖主流的应用场景,无法用一个通用的标准去评判时序数据库的性能。

基于这个原因,我们TC601这边进行了性能测试基准方面的规划,将性能测试方面的要求转化成了6个选项。目的是公平公正地评价产品的性能,一是要贴合实际的需求;二是要有相同可量化的标准。

6个选项为:

1、测试环境。测试环境一定要相同,大家在同样的测试环境当中评判各自产品的能力。

2、测试场景。数据库的应用场景很多,我们如何从不同的应用场景当中提炼出一些相同的技术需求去设计我们的用例。

3、数据准备。数据准备是非常重要的一块,我们如何设计数据集以贯穿整个测试,使数据的组合有效、可操作且能反映出产品的能力,让大家都可以基于这个数据集做相同标准的评判。

4、考察指标。如何设计考察指标来评判时序数据库在各方面的性能

5、数据操作。数据操作需要可解释、易操作、可复制,需要保证每个产品测试时,对数据的操作是相同的,不会影响的性能的评判。

6、考察维度。最后达到效果是什么样子的,以及一些其他维度的考虑,是不是考察集群的性能、单机性能以及不同并发情况下的性能,如何通过其他小的细节保证这个测试的公正性。

(编辑:牡丹江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!