外行谈谈大数据
貌似IT人士现在都流行讨论大数据,对于大数据我其实也不是很明白,但是我们专业也是需要分析数据的,所以想谈一谈。
数据分析其实一直都很重要,大到一个国家的经济数据,小到像我这样的博客的每日访问量,现在这种互联网的年代,任何行为都会留下数据,ip,访问了什么页面,停留时间等等,而有效获取这些数据,提取有用的部分,用于了解客户行为,促进生产销售,都是相当有必要的。但是以前我在网上也没见什么热烈讨论数据分析,很多公司也没有专门的数据分析部门,或者有什么数据分析师的招聘的。
随着技术的进步和网民数量的爆发性增长,数据越来越多,‘大数据’这个数据就随之而来了,百度每天几十亿的搜索量量,淘宝每天上百亿的交易额,新浪微博无数条微博,每天视频网站上上传的视频,还有输入法中打过的字,这都是大量的数据,今年年初“大数据”这个概念一下子就火了。与“大数据”一起崛起的还有“云计算”和“云储存”,大数据的背后总得有各种技术在支撑,大数据首先得储存,储存之后得检索整理,海量数据这就得依赖于强大的云计算能力。关注于大数据的都是大企业,因为他们的数据够多,才能称得上大数据,像我博客的访问量,这真的不好意思说是大数据。由此带动了大数据相关企业的发展已经人才的需求,Datameer推出面向企业和个人用户的大数据分析平台Apache Hadoop,现在很多大机构在用,客户中包括戴尔、富士以及三家国际顶级银行,该平台操作简洁,目前融资了数百万万美元。国内各大电商也都关注大数据分析领域,也纷纷组建大数据分析团队,大量招聘大数据相关人才,有机构称预计到2018年,仅美国就需要14-19万信息分析专业人才,以及150万懂得大数据的管理人员和分析师,国内媒体甚至称大数据分析师将是未来最火热的高薪职业。下面看看大数据都是怎么被利用的。
Verint Systems公司分析他们大量客服电话的语音记录,从中发现那些客户有可能流失,并采取措施留住这些客户,减少了数千万美元的损失。
亚马逊从用户的浏览记录进行深度分析,开发出来“也许你喜欢”这个功能,向用户推荐其可能喜欢的商品,促进更多成交量。该功能后来也被国内电商纷纷模仿,并且巧妙升级为“其他用户还浏览了”,其实本质上都一样,推荐的都是你可能想购买的商品,“其他用户还浏览了”只不过还利用的从众心理,其他用户可能压根就没浏览。
不太有人注意的还有,金融专业的股票分析师其实也一直在利用大数据,k线就是大量交易数据呈现出来的图形,对股价的预测就是对大数据的运用。但是大家会发现,股票分析师对股价的分析并不是特别准,那是因为股票交易就不像商品交易那么容易分析,虽然都只是买卖两个动作,但是在股市上,每个人都是买家,每个人都是卖家,投机者存在,庄家(好吧,合理的称呼是主力资金),所以市场噪音太多,噪音数量巨大,导致从数据中提取有用信息太困难,虽然有很多模型曲线指标,但是依旧无法准确预测。而商品交易则相对简单,买家卖家身份较为固定,不会频繁转换,买卖动机也更为纯粹,所以大数据在商业上的应用还是有效的。
说一下技术层面的东西。
数据就好像马赛克画,同一个图片,如果只有十个色块(像素,理解成分辨率也可以,不明白的话随便找个图片放大,看看是不是一块块的),那么呈现出来的只能是一个大致的感觉,不清晰,没什么意义,完全不能看出是一副怎么样的图;而有十万个色块就不一样了,基本上就能呈现出图片应有的样子,你就能明白这图片是什么。色块越来越多,那么意义就更清晰,所以大数据比小数据更有用。如果色块足够多,那么这些数据就包含了图片所有的信息,也可以理解为这些数据就是图片的分身。但是大数据的难度就在于色块越多,整理越难,就好像拼图,十个色块你很容易就拼出来了,但是十万个色块你就很难拼凑出图片的原态,大数据的应用就是图片还原的过程。
数据本身是没有意义的,就像图片上的色块,任意一块都没有实际用途,一个单位的数据没有说服力,也无法绘制趋势曲线,线段至少要有两个点,所以获取大数据是趋势,只有数据足够多,才能包含全部要素,做出来的模型也跟接近实际情况,越接近实际就越有指导意义。但是根据测不准定理,当小到一定程度时,越是想精确的测量,其实得到的结果越不准确,因为工具本身也会对测量结果有影响。也就是说,我们想分析预测每个人的行为是不现实的,有网站的文章认为大数据分析的帮助下,警方可以利用大数据预测哪里什么时候会发生犯罪,餐厅可以为某天某个时刻会有多少顾客到访,这些都是天真的想法,大数据的大,是有前提条件的,数据大到精确到时间上每个人每一秒在哪里做什么的时候,这些数据压根就是没用的,因为量太多,导致根本无法分析,简单的说就是物极必反,所以跟永动机一样,世界上是不存在任何模型能够完全预测真实世界的活动的。
我觉得大数据分析不是光数学好、建模能力好就能准确分析用户行为的,其中应该还包括心理学,社会学,还有语言学等人文类知识,毕竟产生这些冷冰冰数据的背后是人类啊,人类区别动物就在于是有思想和情感的,数据背后还包含很多信息,所以大数据这个行业并不是一堆数学家或者什么物理学家建个模就完事的。这也是为什么会有一门新兴学科叫金融心理学(好像也有叫行为金融学的),技术分析纯粹在数学角度上的预测股价是站不住脚的,只有加入心理学才完整,因为每次交易都是一次心理活动的呈现。
国内拥有大数据的企业很多,新浪微博,百度,腾讯,淘宝,每天都在不停的捕获着我们的数据,有的是明着捕获的,比如百度和微博,只要你在用,就得留下记录,这是没办法的,你不能搜索的时候不被百度记录,你也不可能发微博之后微博不存在新浪服务器里。有的是悄悄捕获,比如比如阿里旺旺,聊天记录是直接存在阿里的服务器的,对外虽然宣称是为了在交易过程中出现纠纷的时候作为凭证,但是谁能保证他们没分析这些数据,反正在他们服务器里。有网友称QQ群的聊天记录腾讯其实也是全部的存在服务器里,虽然不知道是不是真的,但是他们即使记录,你也不知道。
这也是大数据存在的问题之一,用户隐私权被侵犯了。你在使用过程中你不想被别人知道自己的行为,但是公司要促进发展,就必须获知你的行为,这就是一个博弈。要么不用,要用就得被他们知道隐私,虽然很多公司都说会对用户各种数据进行保密,但是有的公司连个密码都保管不好,凭什么让人相信别的数据会保管好。但是如果完全保护用户的隐私权,那企业的进步就会受到阻碍,企业不进步,受罪的还是用户自己。
身为个外行人我就说那么多了,该行业的朋友不喜勿喷啊,哈哈。
不是有句话叫大就是美嘛 😆
好像还真听过,呵呵
你的字体够大的,呵呵
额,貌似字体又被吐槽了,我考虑一下换小点好了 😕