大数据

大数据简介

5V特点 体量化(Volume) 首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量. 从GB﹑TB级别向着PB﹑EB级别迈进: 1EB=1,024PB 1PB = 1,024TB 多样化(Variety) 指数据多样性(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已突破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据. 快速化(Velocity) 数据处理速度(velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理 价值(Value) 海量数据中,每一条的价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 *真实性(veravity) (有的4v分类中加上了这一条) 即数据的质量 随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业愈发需要有效的信息之力已确保其真实性以及安全性。 大数据技术 数据采集 采集 清洗 转换 集成 加载 高并发 采集过程中最主要的特点和挑战是:高并发 因此,在采集端部署大量数据库才能支撑。 ...