当前位置:首页 > 知识库 > 正文

etl技术_etl开发流程_etl工具有哪些

客服   etl技术_etl开发流程_etl工具有哪些  第1张 拼多多砍价dy抖音ks快手 自助商城点击进入

文 | 帆软数据应用研究院 船长

2016年,商业智能市场火热,不管是投资圈还是IT圈,都在广泛关注着大数据和商业智能。宣传广告媒体报道见多了,不知道大家对BI选型的技术标准有谱了没。船长对Gartner的BI魔力象限考评的15个关键功能做了些研究,给大家作些参考。(干货较多,请自备饮料~)

总体来说,随着用户数据来源越来越广泛,用户对BI的需求偏爱在发生变化。越来越偏爱自助敏捷开发、交互式仪表盘、自助数据探索。直白来说,用户越来越希望自己搞定数据分析,而不需要找IT部门支持、支持、再支持。

基础模块

1.BI平台管理、安全和架构

“能够实现平台安全性etl技术,管理平台用户,监控管理平台访问和使用状况,优化性能,支持在不同操作系统中运行,同时确保系统高可用性和支持灾备。”

作为企业信息化的一部分,BI平台做单独的管理和灾备的原因是多方面的。一方面是政府、互联网企业、大型企业重视信息化建设,从理念上就要求单独维护;另一方面,笔者也看到众多中小企业,希望不去改造原有的业务系统,对BI系统采用单独管理的办法,虽然可能浪费一些人力和硬件资源,但确保新、老系统独立,保证原有业务系统稳定,同时避免新系统掉进老系统的旧体系,这些都是中小企业的考量。当然,更重要的原因是,BI系统逐渐成为业务管理决策的支撑,发挥越来越大的作用,企业要求BI系统必须全天候提供稳定服务。

2.云BI

“提供PaaS或者SaaS版本的BI产品,支持本地和云上构建、部署、管理BI平台。”BI云化是个趋势,尤其是对于政府等领域。但是国内和国外情况有所不同。

第一,用户担心数据外泄。国内的拥有私有云的企业并不多,大多在用公有云。BI平台分析的多是企业核心业务数据,一旦外泄到同行、客户、公众等,企业难以承担损失。公有云在国内的推广阻力重重,当然,一方面需要让客户了解公有云的安全性,另一方面,公有云厂商也要提高云安全性。更重要的是,做个好青年,别打客户数据的主意。

第二,整个SaaS行业现在就没有较为合适的商业模式,云BI,短期看不到盈利希望。

第三,BI厂商一般自己难提供公有云,推出云BI也会被国内公有云巨头裹挟,何况现在公有云巨头已经开始踏足BI领域。不过,BI厂商的产品支持云部署是没问题。像帆软BI平台,在公有云部署和私有云部署,笔者是有亲自参与过项目。

3. 数据源连接和提取

“允许用户连接到内部和云中各种类型的数据平台,可连接结构化和非结构化数据。”

从接触到的项目和同行交流来看,国内BI更多处理的是结构化数据。主要是国内外对BI平台的理解有不同。国内更多人倾向于BI为数据分析工具,不一定涵盖数据仓库、数据处理和复杂算法。所以,从目前产品技术选型来说,推荐考虑BI平台能对接到哪些数据源,性能如何。但在具体的方案考评中,考虑和不同数据存储平台或者数据处理平台的集成方案。

数据管理模块

4. 元数据管理

“用户能够集中管理元数据,包括对元数据进行搜索、提取、处理、存储、分享复用和对外发布元数据。”

这里的元数据重点是业务人员分析需要的维度、指标、层级结构、度量等数据。还包括一些加工处理后的数据,比如KPI、个人销售额、单品销量等数据。同时,系统支持管理员将用户处理、存储的元数据与BI平台对接的底层数据进行关联和整合。目前,国内帆软有BI产品确实支持元数据管理,BI本身提供多维数据仓库(CUBE),并提供可视化工具让用户方便处理元数据。尽管操作方便,但不少用户还是倾向于自行管理元数据。原因有二:一是一般企业自身已有大数据处理平台或者构建了数据仓库,不想重复建设和维护;二是BI产品自带的数据仓库,虽然数据分析性能好,但并不是标准的数仓产品, 长远来看,企业自建数仓管理数据较为稳妥。不过,对于高频分析使用的数据,显然是存储于BI自带的数据仓库综合效果更优。

5. 用户自操作ETL和数据存储

“平台功支持用于访问、提取、转换和加载的功能,具有索引、管理、调度数据的能力。”

让普通用户,或者说是业务人员来进行类似ETL的操作和数据存储,方向是正确的,但从目前来看,除了少数教育、出版印刷、互联网、证券金融等领域从业者有较高学习和操作能力,大部分行业的业务人员ETL操作能力还是很有限的。但笔者认为,这个功能指标在实践中还是很价值的。因为虽然国内大多数企业依然是IT技术做数据处理,但是业务部门正在逐渐掌握自行处理数据的能力。在相当长的时间内,业务人员或许依然无法完全摆脱对IT技术的依赖,但显然依赖度正在逐步降低。业务人员的数据处理和数据分析,在成熟的BI工具的支持下,正在迅速提高。

6. 自助数据准备

“用户自助拖拽组合不同来源的数据,创建分析模型,并通过智能分析、自动关联等系统自动处理好数据,包括结构化数据和非机构化数据。” 如前文的用户自行操作ETL,用户自助数据准备,本质上就是让BI系统自动处理数据之间的逻辑关联。业务人员的操作,就像是从不同的羊圈里面拖出不同的羊,希望系统能自动关联他们的血亲关系,而不需要专业的DNA鉴定或者农场主帮认亲。目前,这块还难以完全系统自动实现,因为过去很多业务系统底层的数据库,在项目交付阶段,都会去除主键和外键,为的就是应对不甚严谨的业务操作。这是国内企业IT 建设的现状,我们不能忽视,大谈想当然或者视而不见。但是帆软BI开辟了新的解决方案,除了能自动关联、转义数据,还可以手动设置关联,同时,允许IT技术初步处理数据后,业务人员通过SPA螺旋分析功能再次将数据加工,这是笔者测试十几个国内外商用和开源的BI产品后,认为当下最可行的方案。分析和内容创建

7. 嵌入式高级分析

“用户能够轻松使用平台内置的高级分析功能,也可以通过导入和集成外部开发的高级分析模型。”

通俗理解来说,就是BI平台自带高级分析模型、算法模型,能够让用户拖拽数据,自动跑完模型出来结论。目前来说,国内的BI内置算法和模型的几乎没有。国外的也未多见。常见的情形时是用户自行开发算法模型,或者已经多年积累了高级分析模型,然后将分析模型处理完的数据对接到BI系统,通过BI系统做可视化的分析和展现。也就是BI仍旧是充当数据分析和图形展示的工作。从目前市场上的BI产品策略来看,大部分BI产品尚未能支持嵌入高级分析,少部分支持对接R语言等。预计两年内,BI支持集成高级分析模型会越来越普遍,但内置算法模型,或许尚早。

8. 分析仪表板

“能够通过可视化探索操作和嵌入式高级地理空间分析来创建高度交互式的仪表板和内容。”

分析仪表板,有更通俗的叫法,就是交互式图表组件。比如常见的柱状图、折线图、散点图等,还有高级一些的矩形树图、多层圆环图、行政地理图、自定义地图、热力地图、流向地图等等。这里重点在于,这些图表既要BI内置,同时还要支持业务人员简单拖拽实现图表展现。从目前来看,这个趋势还是比较明显的,越来越多的业务人员愿意自行拖拽分析。

9. 互动视觉探索

“通过一系列常规图表和特殊图表来探索分析数据。”

这些常规图表,主要是饼图、折线图等,而特殊图形是指热力地图、流向地图、矩形树图、GIS地理信息图等特殊的视觉效果。在这看人看脸的时代,BI颜值也提到了相当重要的位置。当然,除了图形、图表丰富、漂亮外,也需要关注图表的操作交互。

10. 智能数据挖掘

“自动查找、可视化展现与用户相关的数据中的重要发现,如关联、异常、聚类、预测等,而不需要用户构建模型或编写算法。”

BI平台自带数据挖掘分析,从笔者接触来看,至今还没有哪家产品做得特别棒。或者说,当下的BI概念已演化为“数据分析和可视化工具”,渐渐剥离了数据挖掘的功能。数据挖掘本身,独立成商业智能的一个分支etl技术,也就是说,当前BI平台技术选型,很难找到自带智能数据挖掘功能的产品。但是BI平台可以和市场上常见的数据挖掘平台、大数据平台集成。关于这点,笔者建议BI技术选型时,重点考察方案,而不是单一的BI产品。所谓各种一站式分析BI平台,细细看来,不少都是不同产品的组合。

11. 支持移动端展现

“用户能够将BI分析内容发布到移动终端设备,并且能够利用移动设备自身功能,实现BI页面的触摸操作、照相、视频、定位等。”

移动BI,几乎家家企业都热衷。但不同企业需求有所不同。有注重安全的,要指纹加密,要绑定手机mac地址,要VPN加密;有注重多操作系统的,比如安卓和IOS版本必须同步支持;有注重功能和交互效果的,数据采集、图像视频采集、定位、各种联动钻取、移动端分享BI分析内容;也有注重多平台支持的,比如既有原生APP,又要支持集成企业已有的APP中,还需要能集成到微信、钉钉平台。移动BI这里面,功能必然是抓大家眼球,但请更多重视移动终端的安全性。即使手机不在身边,依然要稳保企业数据安全。

发表评论

最新文章

推荐文章