深度洞察用户数据

高效挖掘数据价值

以云计算为基础,能够对持续性海量增加的多结构类型数据,进行快速计算和分析,对行业大数据进行多维度重新整合和深度挖掘,建立横向、纵向、交叉以及立体分析模型和对标体系,实现包含IAAS,PAAS及SAAS等数据的综合应用,帮助客户提高大数据的处理能力,挖掘大数据的价值,利用大数据进行分析、决策,提高经营管理能力和客户服务水平。

技术架构

Technology Architecture

平台特色

Platform features

安全性加固,使用LDAP作为账户管理系统,提供单点登录能力;文件系统层针对表、字段的存储关键信息动态加密,集群内部用户信息禁止明文存储。

统一工作台提供丰富的可视化组,包括批量采集、实时采集、实时消息批量计算任务、机器学习等任务类型。

大数据基础平台在统一存储上建立资源管理层,为企业提供统一的计算资源管理、动态资源分配、多租户之间资源配置和动态共享,灵活支持多租户、多服务在统一平台上的平滑运行。

统一运维管理和友好的图形化管理界面,为客户提供了系统安装集群配置、资源级别安全控制、监控及预警等多方面支持,在管理便捷性方面优势显著。

全链路大数据管理,提供个性化的数据建模、数据查询、收藏、管理功能。

海量批处理和高速流处理,集成了Hadoop、Spark、Storm等计算框架和HDFS、Hbase等数据存储服务,能够真正做到海量批处理和高速流处理的能力。

海量数据搜索,Hadoop大数据基础平台分布式实时搜索与分析引擎,可实时对数据进行深度搜索,支持多维度的数据展现形态。

大数据云计算平台

Big Data Cloud Computing Platform

大数据基础平台

Big Data Base Platform

大数据运维管理,提供可靠安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等服务。

Hadoop集成开放工具,提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。

分布式文件系统HDFS,实现高吞吐量的数据访问,适合大规模数据集方面的应用,为海量数据提供存储服务。

分布式处理引擎MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。

分布式数据库HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列)访问可以达到实时级别。

分布式内存计算框架,能够帮助用户简单地快速开发统一的大数据应用,对数据进行协处理、流式处理、交互式分析等。

分布式搜索ElasticSearch提供实时分布式搜索和分析引擎。

分布式缓存层(Tachyon、Redis),当两个Spark作业需要共享数据时,通过Tachyon无需再通过写磁盘,而是借助Tachyon进行内存读写,从而提高计算效率。

数据仓库 Hive提供类似SQL的Hive Query Language语言操作结构化数据。

流处理Storm、Spark Streaming,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。

统一安全管理平台对系统安全进行保障,通过网络安全、身份认证、权限控制、数据保护审计、监控等能力,保障系统的安全、数据的安全、信息的安全。

身份认证,实现租户通过政务外网、公有云、互联网等对政务云内部资源的可控访问。

访问控制和授权,提供安全策略,保证政务云内部租户、主机、VM之间的默认安全隔离。

数据保护,数据备份是最基础的数据保护手段,是防止数据丢失的最后一道防线。 审计和监控,记录所有云平台的相关活动的日志和审计,监视各种应用程序和服务器。