清华大学信息技术研究院Web与软件技术研究中心


华鼎平台

华鼎系统是面向领域的大数据管理和分析平台,于1999年开始研发,目前版本是3.0(详见图1-图3)。

该平台是针对在云计算环境下动态、分布、异构、海量结构化数据和非结构化数据(大数据)的存储、索引、组织、分析、管理和应用的需求,研发的海量数据和知识管理系统。该管理与分析平台贯穿大数据集的采集、传输、存储、管理和服务的整个生命周期。基于该平台,开发人员可以根据领域的应用特点,配置不同的模块组合,提供面向特定领域的特定大数据集的管理与分析应用方案。

该平台包括五个部分(LUCKS):

  1. 华鼎-L:提供了基于元数据集群的分布式文件系统,采用了数据条带化、动态目录子树和小文件打包等优化技术,支持PB级存储容量、百亿级小文件(数量)支持、单目录支持千万级文件数量;同时,提供高效率的文件检索(数万个/秒);分布式存储提供数百GB/秒的聚合带宽,百万级IOPS,可按需扩展,满足高并发。
  2. 华鼎-U:面向非结构化数据,在元数据的管理方面,提供了支持非固定模式数据的存储和多种灵活的索引机制和查询机制;而在内容管理方面,则采用了基于对象的统一管理。
  3. 华鼎-C:基于列式存储的对结构化数据的管理,数据查询效率高,读磁盘少,存储空间少,适用于构建数据仓库,提供SQL接口,支持JDBC/ODBC,可以进行分布式的部署,提供并行数据加载和查询。
  4. 华鼎-K:构建于Hadoop、Spark等生态系统之上,应用操作简单,仅通过可视化的操作,无需编程就能够高效地进行机器学习,实现预测分析;能可视化地提供数据加载、数据预处理、特征定义、模型选择、模型训练和数据预测一整套机器学习的工作流,并在每个步骤里都能以非常友好的界面呈现给开发者和数据专家。华鼎-K中还包括一套知识图谱构建与维护的工具,能够支持实体抽取、实体关联抽取、知识图谱的增量扩展、语义搜索、数据挖掘和个性化服务等功能。
  5. 华鼎-S:通过提供硬件内安全来保护存储数据的安全,同时利用Intel SGX这一新型的可信计算模式的技术,能够保护计算和数据的私密性和完整性,在提供在云端提供数据服务的安全性。

从应用的角度,华鼎大数据管理与分析平台能无缝导入传统系统难以存储、管理与分析的海量数据集,进行无模式数据、固定模式数据、自由模式数据管理。该平台可以安全地对外提供资源存储、数字对象存储、数据仓库、规则引擎、推荐引擎、数据分析、数据加工和可视化展示等功能,通过数据挖掘、数据处理和数据分析,发现数据的内部规律和模式,提升数据价值,辅助行业决策。应用的领域包括:数字档案馆/数字图书馆、电子政务、电子商务、云计算、智能电网、互联网舆情分析、物联网、智能交通、在线教育、数字医疗健康等。目前已经先后与国内外30多个企事业单位展开研发合作。

图1. 华鼎3.0 - 面向领域的大数据管理和分析平台

huading_3.png


图2. 华鼎2.0 - 支持数据驱动型应用的跨域共享与服务支撑平台

huading_2.png


图3. 华鼎1.0 - 海量数字资源管理系统

huading_1.png

HuadingIntroduction (last edited 2017-04-14 00:44:15 by ZhangYong)