9
文 | 郑林峰 财通证券大数据经理

交流微信 | datapipeline2018

财通证券股份有限公司是一家经中国证券监督管理委员会批准设立的综合性证券公司,成立于1993年的浙江财政证券公司,现为浙江省政府直属企业,主要经营证券经纪、证券投资咨询、证券自营、证券承销与保荐、融资融券、证券投资基金代销、代销金融产品等业务。

作为公司中不可或缺的一部分,财通证券的数据团队管理着日增约为6000多万 – 1亿条的数据,为公司的不同层次、不同类型的服务提供着稳定可靠的数据信息。

在人工智能的新时代下,为实现批量化数据集成,财通团队放弃老式集成工具,选择DataPipeline的产品,用5分钟就完成了以前需要50个小时的任务配置工作。除此之外,DataPipeline独有的跳板机设置,减轻了数据团队潜在的管理负担。

中小型券商数据团队的痛点

全国120家券商,约40家的中大型券商企业已经建立独立的基础数据部门,而对近80家中小型券商企业来说,数据团队都是在成立中,或者是在二级部门的状态。

对于中小型券商,一个很大的痛点就是数据集成的问题。这是由于数据组人力资源非常有限,而数据集成因为对性能和稳定性要求高,开发繁琐,变化频繁又无法外包。对于数据集成,大多数券商平台使用的老版的ETL数据集成工具,由于采取单表级粒度,导致抽取任务的开发,调度管理及测试效率较低。而券商数据流的特点是任务基于清算状态,当上游的生产系统完成清算后,数据任务启动取数至中间库,当取数任务完成后,再触发下游系统消费数据。

对于企业级的券商平台来说,初步的数据采集不需要做繁复清洗转换工作,只需提供贴源数据给到下游合作商来加工和处理。

其次,目前的常用抽取工具不能对资源进行相对精细的控制。由于上游系统具有强势的生产性质,券商系统对于数据采集的资源消耗要求很高。券商的预警机制基本在系统流量到30%以上开始预警。

数据使用端没有验证规则,没有自己的冗余性机制,所有的压力都在源端数据层。随着管控的数据规模不断增加,源端数据出现问题的风险也在提升,导致数据团队填写事件单已经成为家常便饭。

另外,对于金融企业来说,数据安全是重中之重,所以核心系统的数据都是通过网闸进行网络隔离。使用老版数据集成工具的时候,由于老版数据集成工具的特性,导致数据团队的整体服务都必须放在内部网络,一旦任务失败,团队必须去到现场的内网机器进行操作,运维十分困难。

解决方案

我们(财通证券)选择与实时数据管道技术上领先的DataPipeline进行合作,打破了传统工具在ETL上的束缚。财通证券基于DataPipeline开放的底层平台,开发了监控预警、数据校验、个性化调度等功能,以产品化加开放API的组合拳,实现了符合证券行业应用场景的数据集成方案。

批量化的加速提取

在目前大数据时代,数据的加工流程已经发生了变化,从以前的单表采集、清洗转化、落库(ETL)转向数据单纯采集不进行转化直接落库。所有的转化在数据落库后通过大数据技术进行清洗转化(EL)。

而目前市场上,更多得数据采集的粒度还是在单表级,并且需要进行可视化转化清洗等操作,浪费了不必要的时间。

DataPipeline适应了时代的需求,采取批量化的采集方式,同时对同个系统的几十几百个表一并采集,大大提高了我们(财通证券)的数据采集效率。

对资源的监控

老版数据集成工具等抽取工具,在执行的时候会完全放开抽取进程的能力,会有很好的抽取速度,但是由于没有办法进行统一的任务管控,这会对上游系统的数据库造成很大的压力。

使用传统的集成工具,我们最高能消费掉到系统生产备库50%的性能,单库每秒钟的流量条数接近10万,但这样做就触发了上游系统的预警,为保证生产系统的安全稳定,采集系统必须进行波峰限流。

DataPipeline的工具定义了采集条数和采集流量的双重阈值,而且由于其任务是对于整个任务下的所有表的总值进行限定,粒度更加适合企业级统一采集工具的使用,保证了企业应用的安全性。

跳板机的实施

作为金融企业,数据安全是重中之重,所以核心系统的数据都是通过网闸进行网络隔离,如何快速将数据从不同的网络环境抽取数据,那么就需要通过跳板机模式进行处理。

DataPipeline通过跳板机的方式,让跳板机承担数据中转服务,整体采集的控制端存放在非内网环境,确保出现问题可以在外部环境中进行直接管理和问题排查。

值得一提的是,DataPipeline是市场上唯一可以做到这一点的公司。

人工智能时代的考虑

券商以前追求的是高质量的可用数据(结构化数据),如可视化的股价、经济数据等。在人工智能时代下,更多维度,数量更大的基础数据(结构化或非结构化数据)显得更加重要,所以需要采集的表的数量更多,数据也分布在更多的业务系统。各系统的数据库类型也不一样,所以也出现了对于异构数据库抽取到某一个特定的数据库这样的需求。

业内更多使用的是消息中间件的方式去进行,而DataPipeline在上游数据源和下游数据库之间建立中间件,使用通用的中间件架构完成非结构化和结构化数据的架构统一。

高效的服务,肉眼可见的成果

DataPipeline的研发团队的工作期并不止于产品完成。交付产品后,DataPipeline团队在短时间内对客户的各种行业特性需求快速响应,本着客户至上的原则,为财通提供了优质及时的服务。

三月份与贵公司(DataPipeline)谈一次需求的优化,很快改版就出来了。基本上券商行业的一些特定需求都可以很好地满足了。

这样的效率带来的高效结果也不会惊奇:仅仅是提取结构性数据一项,DataPipeline就“完爆”了前辈的老版数据集成工具。使用老版工具,几百张表的抽取配置需要花费50个小时,而使用了批量化采集的DataPipeline基本可以在5分钟内完成。

结语

由于金融行业具备的数据同步与集中性,ETL对性能和稳定性要求非常高。而ETL开发繁琐,变化频繁又无法外包,这就成为了所有券商的痛点。财通证券作为一家典型的券商公司,通过DataPipeline的帮助,更敏捷、更高效、更简单地实现了复杂异构数据源到目的地的实时数据融合和数据管理等综合服务,使中小型券商的痛点得到有效的解决,并且为新时代的到来做好了充分的准备。