大数据是指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。一段好长的话,去掉修饰后:“大数据是资讯”,然而,资讯一般定义为短时间内给人带来价值的信息,这么看来这个定义不太合理。以我的理解:大数据是在数据体量大时,能快速带来价值的一套解决方案。
1.大数据的来源
互联网初期,主要是对交易数据的处理,例如银行的交易、电信运营商的缴费扣费,这些数据的特征是精度高、价值高,那时候一般用IOE(IBM、ORACLE、EMC)这样的解决方案。随着互联网基础设施的发展,以及网上购物习惯的形成,用户在网络上生产了大量的行为数据,例如浏览数据、点击数据、地理位置数据、消费数据、机器传感器数据、监控数据等等。这些数据体量大,数据精度低,价值密度也低。但是,随着客户营销、个性化的广告推荐、个人信征这些业务的应用,这些数据被发现蕴含着大量的价值。然而之前的解决方案成本太高了,也处理不来这么大体量的数据,随即,开源的大数据解决方案孕育而生。
2.大数据的应用
电商
例如你看到的淘宝商品橱窗,会结合个人特征和商品特征给你推荐。系统收集了用户的各种行为数据,以及与商品的各种数据,可能还会结合时间、气候等等因素,才展现在你面前。
广告
例如你在京东上收藏了个商品,不一会,今日头条上就能看到相关商品的广告,如果你点击了这个广告,广告商就可能从广告主那里收取一定的费用。计算广告就是收集了大量的用户行为数据,利用其中有价值的信息来变现。
交通
地铁调度运营,交通运营,检查冒牌车辆,监测违规驾驶等。
气象
预测台风,预测天气变化。
医疗
通过对医疗数据的分析,人类能够预测流行疾病的爆发趋势、避免感染、降低医疗成本、疾病预诊等,还能让患者享受到更加便利的服务。
物流
供给匹配预测,库存预测等,运输车辆调配。
大数据已经渗透在各行各业,甚至有些新兴行业的崛起就是靠着大数据,例如外卖、打车。