《大数据时代》是由英国作者维克托麦尔〃舍恩伯格等所著,主要描述的是大数据时代到临人们生活、工作与思维各方面所遇到的重大变革。以下是人见人爱的小编分享的《大数据时代》读书笔记【精彩2篇】,您的肯定与分享是对小编最大的鼓励。
数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,通过对海量数据进行分析,我们可以获得巨大价值的产品或服务,或者深刻的洞见。
大数据时代的思维变革
(1)不是随机样本,而是全体数据:在大数据时代的第一个转变就是利用所有数据,而不再仅仅依靠一小部分数据。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。因此样本选择的随机性比样本数量更加重要。大数据的方法不采用随机分析法,而是采用所有数据,即样本=总体。
(2)追求数据的混杂性而不是精确性:大数据为了扩大数据规模允许不精确。大数据的简单算法比小数据的复杂算法更加有效。大数据要求我们接受纷繁性,放弃对精确性的追求,在大数据时代我们无法获得精确性。
(3)大数据追求相关关系而非因果关系:通过监控一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。大数据的相关关系分析法更加准确、更快,而且不易受传统思维模式和特定领域里隐含的固有偏见的影响。建立在相关关系分析法上基础上的预测是大数据的核心。
大数据时代的商业变革
(1)一切皆可量化:量化是数据化的核心。我们要的是数据化而不是数字化。数据化是指一种把现象转变为可制表分析的量化形式的过程。数字化指的是把模拟数据转换为0和1换算表示的二进制码。
有了大数据的帮助,我们不再会将世界看作世界是一连串我们认为或是自然或是社会的现象,我们会意识到本质上世界是由信息构成的。将世界看作信息,看作可以理解的数据海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
(2)数据的绝大部分价值都隐藏在表面之下:数据的价值不仅限于特定用途,它可以为同一目的而被多次使用,也可以用于其他目的。数据的基本用途是为信息的收集和处理提供依据。不同于物质的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的创新包括:数据的再利用(采集用户的搜索数据判断用户的偏好或发展趋势)、重组数据(多个数据集的总和重组在一起时比单个数据集更有价值)、可扩展数据(使得某种方式收集的单一数据集有多种不同的用途)、数据的折旧值(随着时间推移,大多数数据都会失去一部分基本用途但潜在价值依然强大)、数据废气(使用用户在网上留下的数字轨迹,如在线交互痕迹,来改善旧服务)、开放数据(开放政府数据让私营部门和社会大众访问)。
(3)数据、技术与思维的三足鼎立:大数据价值链的构成为大数据采集掌控、大数据挖掘技术、大数据思维。现今我们处在大数据时代的早期,思维和技能是最有价值的。但最终大部分的价值还是必须从数据本身中挖掘。大数据公司的`多样性表明了数据价值的转移。随着数据价值转移到数据拥有者手上,传统的商业模式也就被颠覆了。
未来行业专家和技术专家的光芒都会因为统计数学家和数据分析家的出现而变暗。因为后者不受旧观念的影响,能够聆听数据发出的声音。
大数据决定企业的竞争力。规模很重要,大规模的公司拥有大量数据以及采集更多数据的能力,而小规模公司则更加灵活,因此中型企业将会逐渐消亡。
大数据时代的管理变革
(1)让数据主宰一切隐忧:大数据的核心思想是用规模剧增来改变现状,这会给我们带来更多威胁。
在大数据时代,不管是告知与许可(很多数据在收集时并无意用作其他意图,而最终却产生了很多创新的用途)、模糊化(有意识的模糊化可能起到反作用)还是匿名化(大数据促进了内容的交叉检验),这三大隐私保护策略都失效了。
大数据被滥用于因果分析可能导致罪责的判定是基于对个人未来的预测。进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的原因。而大数据并不是建立在因果关系基础上的,而是相关关系!所以大数据绝不可以用来进行罪责推定!
(2)责任与自由并举的信息管理:大数据时代要借助限制信息滥用的规范而不是最初的审查来防止其泛滥。要想保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。
个人隐私保护从个人许可到让数据使用者承担责任:为了实现数据二次运用的优势与过度披露所带来的风险,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。公司可以利用数据的时间更长,但相应的必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。我们还可以开发新的技术促进隐私保护。如“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确结果。
在依据大数据技术作重大决策时必须保证特定防护措施的到位:(a)公开原则。用来进行预测分析的数据和算法必须公开。(b)公正原则。具备由第三方专家公证的可靠、有效的算法系统。(c)可反驳原则。明确提出个人可以对其预测进行反驳的具体方式。(d)确保对人的评判依据真实行为而非大数据分析。
大数据的运作超出我们正常理解范围。为了防止大数据的预测、运算法则和数据库变得不透明、不可解释、不可追踪,大数据需要被检测并保持透明度,当然还有使这两项得以实现的新型专业技术和机构,大数计算法师将会崛起。
为了保护极具竞争力的大数据市场,必须防止垄断。政府也应该公布其数据。
读了《大数据时代》后,感觉到一个大变革的时代将要来临。虽然还不怎么明了到底要彻底改变哪些思维和操作方式,但显然作者想要“终结”或颠覆一些传统上作为我们思维和生存基本理论、方法和方式。在这样的想法面前,我的思想被强烈震撼,不禁战栗起来。
“在小数据时代,我们会假象世界是怎样运作的,然后通过收集和分析数据来验证这种假想。”“随着由假想时代到数据时代的过渡,我们也很可能认为我们不在需要理论了。”书中几乎肯定要颠覆统计学的理论和方法,也试图通过引用《连线》杂志主编安德森的话“量子物理学的理论已经脱离实际”来“终结”量子力学。对此我很高兴,因为统计学和量子力学都是我在大学学习时学到抽筋都不能及格的课目。但这两个理论实在太大,太权威,太基本了,我想我不可能靠一本书就能摆脱这两个让我头疼一辈子的东西。作者其实也不敢旗帜鲜明地提出要颠覆它们的论点,毕竟还是在前面加上了“很可能认为”这样的保护伞。
近几十年,我们总是在遇到各种各样的新思维。在新思维面前我们首先应该做到的就是要破和立,要改变自己的传统,跟上时代的脚步。即使脑子还跟不上,嘴巴上也必须跟上,否则可能会被扣上思想僵化甚至阻碍世界发展的大帽子。既然大数据是“通往未来的必然改变”,那我就必须“不受限于传统的思维模式和特定领域里隐含的固有偏见”,跟作者一起先把统计学和量子力学否定掉再说。反正我也不喜欢、也学不会它们。
当我们人类的数据收集和处理能力达到拍字节甚至更大之后,我们可以把样本变成全部,再加上有能力正视混杂性而忽视精确性后,似乎真的可以抛弃以抽样调查为基础的统计学了。但是由统计学和量子力学以及其他很多“我们也很可能认为我们不再需要的”理论上溯,它们几乎都基于一个共同的基础——逻辑。要是不小心把逻辑或者逻辑思维或者逻辑推理一起给“不再需要”的话,就让我很担心了!
《大数据时代》第16页“大数据的核心就是预测”。逻辑是——描述时空信息“类”与“类”之间长时间有效不变的先后变化关系规则。两者似乎是做同一件事。可大数据要的“不是因果关系,而是相关关系”,“知道是什么就够了,没必要知道为什么”,而逻辑学四大基本定律(同一律、矛盾律、排中律和充足理由律)中的充足理由律又“明确规定”任何事物都有其存在的充足理由。且逻辑推理三部分——归纳逻辑、溯因逻辑和演绎逻辑都是基于因果关系。两者好像又是对立的。在同一件事上两种方法对立,应该只有一个结果,就是要否定掉其中之一。这就是让我很担心的原因。
可我却不能拭目以待,像旁观者一样等着哪一个“脱颖而出”,因为我身处其中。问题不解决,我就没法思考和工作,自然就没法活了!更何况还有两个更可怕的事情。
其一:量子力学搞了一百多年,为了处理好混杂性问题,把质量和速度结合到能量上去了,为了调和量子力学与相对论的矛盾,又搞出一个量子场论,再七搞八搞又有了虫洞和罗森桥,最后把四维的时空弯曲成允许时间旅行的样子,恨不得马上造成那可怕的时间旅行机器。唯一阻止那些“爱因斯坦”们“瞎胡闹”的就是因果关系,因为爸爸就是爸爸,儿子就是儿子。那么大数据会不会通过正视混杂性,放弃因果关系最后反而搞出时间机器,让爸爸不再是爸爸,儿子不再是儿子了呢?其二:人和机器的根本区别在于人有逻辑思维而机器没有。《大数据时代》也担心“最后做出决策的将是机器而不是人”。如果真的那一天因为放弃逻辑思维而出现科幻电影上描述的机器主宰世界消灭人类的结果,那我还不如现在就趁早跳楼。
还好我知道自己对什么统计学、量子力学、逻辑学和大数据来说都是门外汉,也许上面一大篇都是在胡说八道,所谓的担心根本不存在。但问题出现了,还是解决的好,不然没法睡着觉。自己解决不了就只能依靠专家来指点迷津。
所以想向《大数据时代》的作者提一个合理化建议:把这本书继续写下去,至少加一个第四部分——大数据时代的逻辑思维。