认证培训,h3c认证体系,网络工程师
丰沃创新

常见的大数据术语表

  • 发布时间: 2020-2-10 14:50:11

A


异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息

应用(Application) – 实现某种特定功能的计算机软件


大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人


商业智能(Business Intelligence) – 是一系列理论、方法学和过程,使得数据更容易被理解


聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性


计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据


D


数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库


数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性


数据集市(Data marketplace) – 进行数据集买卖的在线交易场所


数据虚拟化(Data virtualization) – 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等


文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据


提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库


G


H


内存数据库(IMDB: In-memory) – 一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。


K


遗留系统(Legacy system) – 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。


M


MapReduce – 是处理大规模数据的一种软件框架(Map: 映射,Reduce: 归纳)。

元数据(Metadata) – 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。


N


NoSQL – 顾名思义,就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性,能处理超大规模和高并发的数据。


操作型数据库(Operational Databases) – 这类数据库可以完成一个组织机构的常规操作,对商业运营非常重要,一般使用在线事务处理,允许用户访问 、收集、检索公司内部的具体信息。


P


预测分析(Predictive analysis) – 大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇


数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为


回归分析(Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)


路径分析(Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的


信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。


软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件


T


交易数据(Transactional data) – 随时间变化的动态数据


V


可视化(Visualization) – 只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。


X


Z

Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万 TB。据预测,到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。