大数据分析平台

自研抽取大数据引擎、支撑海量数据、秒级响应、支持10000+用户在线查看

大数据应用背景

随着企业数字化的发展,业务系统数量不断增加,各业务系统数据量也不断激增,IT数据支撑方的工作变得越来越复杂。主要问题如下:

多数据源整合
多数据源整合

数据来自多个不同的业务系统,需要对接各种数据源并整合成统一数据仓库

数据体量大
数据体量大

积累的数据越来越多,数据体量越来越大,但对数据分析的要求越来越高

数据二次加工
数据二次加工

获取到源数据后,往往都要再对数据进行清洗、合并、过滤等二次加工操作

大数据分析架构图

基于帆软自研引擎的直连模式和本地模式,可支撑Bl数据分析的各种应用场景

大数据分析架构图

底层大数据技术

列式数据存储

列式数据存储

抽取数据的存储是以列为单位的,同一列数据连续存储,在查询时可以大幅降低I/O,提高查询效率,并且连续存储的列数据,具有更大的压缩单元和数据相似性,可以大幅提高压缩效率。

数据本地化计算

数据本地化计算

为了减少网络传输的消耗,避免不必要的shuffle,利用Spark的调度机制极现数据本地化计算。在知道数据位置的前提下,将任务分配到拥有计算数据的节点上,节省了数据传输的消耗,完成巨量数据计算的秒级呈现。

智能位图索引

智能位图索引

位图索引即Bitmap索引,是处理大数据时加快过滤速度的一种常见技术,并且可以利用位图索引实现大数据量并发极算,并指数级的提升查询效率,同时我们做了压缩处理,使得数据占用空间大大降低。

智能缓存

智能缓存

直连模式下会直接和数据库对话,性能会受到数据库的限制,因此引入encache框架做智能缓存,以及针对返回数据之后的操作有多级缓存和智能命中策略,避免重复缓存,从而大幅提升查询性能。

典型应用场景

历史数据自助分析

  • 业务需求:客户项目的底层为关系型数据库oracle和sqlserver,大量级数据多维度查询计算,若直接对接传统关系型数据库进行数据分析查询,就容易出现性能瓶颈
  • 解决方案:采用帆软自研抽取引擎,将数据抽取到本地磁盘/享存储,以二进制文件形式存放,查询计算时候多线程并行计算,完全利用可用CPU资源。从而在小数据量情况下,展示效果优异。计算引擎与Web应用放在同一服务器上,轻量方便。
  • 达成效果:底层数仓实际最大单表数据量亿级以内,对于数据较大的几个分析(数据量在5kw左右),数据库的查询需要耗费10min,抽取之后在3s之内就可以快速展示,大大提高了用户的分析效率。
免费试用

数据清洗加工

  • 业务需求:业务数据存放于MongoDB中,直接基于原有数据库查询分析,响应极慢,单次分析耗费十多分钟。且考虑到MongoDB库如果要调优重启等,那历史性质的数据分析也无法使用。
  • 解决方案:项目采用帆软自研抽取引擎,将亿级以内的数据抽取到存储引擎中,进行查询计算。并依据数据中的时间戳,对数据实现增量更新,减小数据库的压力,缩短需要更新的时间。同时搭配其他数据库使用,实现多源业务数据的整合分析。
  • 达成效果:亿级以内数据量的分析由以往耗时10多分钟,提升到秒级响应。有效支撑平台上千名以上的用户分析。
免费试用

您还可能关心的问题

指标中心是独立的模块吗?指标与数据集有何区别?

指标中心是FineBI7.0新增的重要能力,指标维度和数据集一样是用户分析数据的起点,使用指标做分析可有效减数据口径争议、提高指标复用度,进而减少数据冗余和混乱,使用数据集可以通过灵活的数据处理进行深度的业务自助分析,FineBI支持企业按需选择这两种数据使用路径。

展开

为什么建议将指标构建在数据分析平台中?

当指标直接服务于企业经营管理和业务决策时才能充分发挥价值,停留在数据治理平台里的指标难以被业务用户理解、难以被管理者看到,因此必须再转化为数据表、指标卡、看板才能被用于分析,FineBI打通了指标平台和分析平台,让指标分析的链路更简短,从而充分发挥指标建设的价值。

展开

FineChatBI(AI问答)与FineBI是什么关系?

FineChatBI是基于FineBI平台的应用,借助FineBI强大的数据分析底座有如下优势:1)同步BI平台原有用户信息,数据权限可管可控,2)基于BI平台的数据生成问答结果,所有数据结果的计算过程可透明,准确度可靠,3)可直接生成BI仪表板,支持用户做深入的分析和调整。

展开

如何快速获取数据分析的典型行业案例?

帆软提供了海量业务分析模板供用户参考,用户可在FineBI的模板市场一键应用行业标杆案例,不仅可以启发分析方向,还可以提升约60%的分析场景搭建效率。

展开

立即体验大数据分析工具FineBI

免费试用