(1)网络大数据共性问题 –对于非结构化数据的统一表示与分析,目前缺少有效地方法与工具 –数据密集型科学研究“第四范式“ –没有建立一套完整的理论体系; –缺少高效、快速的处理、分析与挖掘的算法与范式 2 网络大数据带来的挑战:复杂性、不确定性和涌现性 (1)复杂性:数据类型的复杂性、数据结构的复杂性、数据内在模式的复杂性; (2)不确定性:数据的~;模型的~;学习的~; (3)涌现性:模式的~;行为的~;智慧的~ 3 网络空间感知与数据表示 (1)网络大数据的恶感知与获取 整个网络空间可以划分为: –Surface Web:web中通过超链接可被传统搜索引擎爬取到的静态页面; –Deep Web(或Hidden Web):由web中可在线访问的数据库组成,数据隐藏在web数据库提供的查询接口后面,只有通过向查询结构提交查询才能获得。特点:规模大、实时动态变化、异构性、分布式以及访问方式特殊等;(采用数据获取、数据抽取盒数据整合) (2)网络大数据的质量评估与采样 –对web数据库采样,Hidden-db-sampler,给出了对范围属性和分类属性的处理方法,而对查询接口中设计的必填的可任意取值的关键词属性未作处理; –基于图模型的增量式web数据库采样方法-Wdb-sampler,通过查询接口从web数据库中以增量的方式获取近似随机的样本。针对样本中每条数据作为顶点来建立图模型,每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词,代价较高; (3)网络大数据的清洗与提炼 –四个指标:一致性、正确性、完整性和最小性 –数据的清洗建立在数据标准质量之上,得到高质量的数据; –清洗与提炼过程满足:检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户编程的工作量,而且要容易扩展到其它数据源;应该和数据转化相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成; (4)网络大数据的融合表示 –文本信息,从浅层词语表达方式到深层语义表达:向量空间表示VSM、隐语义索引LSI、概率话题模型; –对海量文本数据的建模,需要模型能够对更大规模的参数空间进行有效学习,需要能够有效地建模并解决数据的稀疏性所带来的问题,需要对动态演化的网络大数据进行合理的表达; –对图片和多媒体数据,探索其建模与表达方式,以便更有效地表达其内在的语义信息; 4 网络大数据存储于管理体系 –数据规模从TB级上升到PB级EB级,面临着如何降低数据存储成本、充分利用计算资源、提高系统并发吞吐率、支持分布式的非线性迭代算法优化 (1)分布式数据存储:Google公司的GFS、MapReduce、BigTable;Apache软件基金会的Hadoop、Hbase; –Row-Store:在磁盘中依次保存每条记录,比较适合事务操作; –Column-Store:Compression、Late materialization、Block Iteration;数据分析,Bigtable、hbase; –行列混合式数据存储结构RCFile:解决海量数据加载、缩短查询响应时间、磁盘空间高效利用等;通过行组划分降低数据加载开销,通过列数据压缩提高存储空间利用率;两大分布式数据分析系统Hive和Pig均集成了RCFile技术;RCFile已经成为分布式离线数据分析系统中数据存储结构的事实标准。 –开发支持高可扩展、深度处理的PB级以上分布式数据存储架构,还需要研究数据布局分布的存储结构优化方法,以提高网络大数据存储和处理效率,降低系统建设成本,实现高效、高可用的网络大数据分布式存储; (2)数据高效索引 –目前主流的查询索引技术以google公司的Bigtable为代表的列簇式NoSQlogic数据库; –Bigtable提出一种介于关系模型和Key-Value对模型之间的新数据模型:Ordered Table(稀疏的、分布式的、持久存储的、基于主键排序的映射,数据由行、列和时间戳表示) –聚簇索引:同时按索引顺序存储全部数据,按多个索引列聚簇;导致存储开销成倍增长; –互补式聚簇索引CCIndex,利用多副本为每个索引列各创建一张互为补充的聚簇索引表,使得索引列上的区间查询对应聚簇索引表的连续扫描 (3)数据世系管理Data Provenance –包含不同数据源间的数据演化过程和相同数据源内部数据的演化过程 –非注解的方法:采用模式映射方式使用数据处理函数和其相对应的反向函数; –基于注解的方法:但在更复杂的例子中可能并不存在集合之间的可逆函数,必须使用注解描述世系; 面对网络大数据,数据世系管理的研究需关注: –传统的数据管理下的数据世系的管理还有许多的工作亟待考虑,其中考察数据的起源和演化过程将是一个大的挑战; –在网络环境下不确定性数据广泛存在,并且具有多种多样的表现形式。数据的演化过程同时也伴随着数据不确定性的演化,可以利用数据的世系追踪数据不确定性的来源和演化过程; –如何解决异构世系标准的融合问题。大数据应用将涵盖更多的原本可能相互隔离的数据集合,如何将适用不同标准的数据世系信息整合在一起是一个关键问题。 5 网络大数据挖掘和社会计算 (1)基于内容信息的数据挖掘,包括网络搜索技术与实体关联分析 –排序学习模型:将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常见的评价准则下最好的排序函数; –常见的排序学习算法可以分为:逐点Pointwise,如McRank;逐对Pairwise,如RankBoost、RankNet和逐列Listwise,如ListNet、AdaRank、SVM-MAP; –现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方法仍有不足; –社会媒体中需要关注数据的短文本特征、对简短关键词表达的深入理解和分析,掌握用户真实的查询意图; –命名实体,研究对命名实体、实体关系的挖掘; –对实体关系的挖掘,基于规则的和基于机器学习的 –基于统计关系学习,突破了传统统计模型对于研究对象同类型、不相关的两个假设,可以更全面地表达领域知识; –目前,实体和关系的挖掘仍是网络数据挖掘领域关注的研究问题,例如对新涌现出的实体的抽取与识别,挖掘结果的可用性和可理解性,大规模高效知识库、本体库语义网络的构建等; (2)基于结构信息的社会计算 –社会网络是以社会媒体中的用户为节点,用户间的关系为连边而构建的网络,它既是用户间社会关系的反应,也是用户之间进行信息交互的载体。具有关系的异质性、结构的多尺度性以及网络的动态演化性3方面特性。 –社会网络中个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,社区结构的存在对于网络网络的高效搜索、网络演化、信息扩展等具有重要意义。 –针对社区结构的研究可分为 –社区发现:识别出网络固有的社区结构,按照节点间的连边关系把节点划分成若干节点组,使得节点内部的连边相对稠密,不同节点之间的连边相对稀疏。分裂式层次距离方法是一种自顶向下的社区分割过程;模块度; –社区结构演化:网络自身结构与在其上频繁发生的交互过程相互作用的结果,主要研究社区随时间变化的情况,并分析导致这些变化的机制与原因,包括社区的形成、生长、所见、合并、分裂和消亡等,著名的BA网络生成模型,建立了网络微观机制和宏观拓扑结构特征的关联规律;基于完全子图渗流社会发现方法研究社区演化,得出了小社区稳定性是保证其存在的前提而大社区的动态性是存在的基础的结论。 6 网络数据平台系统与应用 (1)网络大数据平台引擎建设: –数据的分类存储:本体数据平台、企业日常事务数据平台、流数据平台、电子商务数据平台; –数据平台的开放性 –数据的智能处理以及数据平台与用户的交互 (2)网络大数据下的高端数据分析 (3)网络大数据的应用 –舆情监控 –模式 –关键字搜索 –数据工程、情报分析、市场营销、医药卫生 7 研究展望 (1)网络大数据的复杂性度量 –类型和模式多样、关联关系繁杂、质量良莠不齐 –导致了传统全量数据计算模式下时空维度上计算复杂度的激增,很多传统的数据分析与挖掘任务如检索、主题发现、语义和情感分析等变得异常困难; –人们对网络大数据复杂性及其背后的物理意义缺乏理解,对网络大数据的分布于协作关联等规律认识不足,对大数据的复杂性和计算复杂性的内在联系缺乏深刻理解,加上缺少面向领域的大数据处理知识,极大地制约了人们对大数据高效计算模型和方法的设计能力; –如何量化定义大数据复杂性的本质特征及其外在度量指标,进而研究网络数据复杂性的内在机理是个重要的研究问题; (2)数据计算需要新模式与新范式 –数据密集型计算 –形成基于数据的智能,寻找类似”数据的体量+简单的逻辑“的方法去解决复杂问题 (3)新型的IT基础架构 (4)数据的安全和隐私问题
[1] 王元卓,靳小龙,程学旗。网络大数据:现状与展望,计算机学报,2013.6,36 (6): 1125-1138