四月杂谈：源自头脑乱想

　　成功是指在一定的时间内把一件或多件事情完成, 并且达到预期的目的。提高成功的概率有两种方法：1、把预计要做的事情切分为多个步骤，把每一个具体步骤了解清楚，增加每一个步骤的成功概率，从而提高整个过程的成功概率。2、把预计要做的事情尽量简化，也就是说要做的事情省去不必要的步骤，步骤少了，过程复杂度降低，成功概率自然会提高。3、为了达到预期目的，很多时候只有一次机会，比如高考。为了增加成功概率，可以增加几次机会，比如设置多次高考，那么在多次中有一次成功则算是成功，这也可以提高成功概率。

　　人的大脑就如同一个统计机, 从外部到信息, 在经过大脑这个统计模型的处理之后, 会对外部世界的物体/或现象做一个推断, 从而认识这个物体/现象.

　　罗素在《the problem of philosophy》一书中谈到和实质（appearance and reality ），即我们人类无法认识到物体的本质，我们感官系统所接受到的是物体的sense-data, 然后经过大脑处理，给出一个推断信息，即是物体的。比如说一个桌子，我们在不同的角度看到的桌子是不一样的，在不同的时间看到的颜色深浅也有区别。这些其实是物体在不同的时间，不同的投射到我们感官系统中的不同数据，在经过大脑处理后得到不同的信息，也就是桌子的。人类认识物体，接收到局部数据，然后对物体的实质作出推断。因为是局部数据，作出的推断产生认知偏差在所难免；即使是全部数据，由于人类无法直接对物体进行认识，需要感官去接收数据然后推断，那么作出的推断也会产生偏差，因为毕竟是推断，只要是推断其实就会有偏差。

　　罗素从哲学层面谈到的物体和实质，为以后的心理学关于认知偏差奠定了思想和哲学基础。不知道著名的行为心理学家Daniel Kahneman和Tversky，有没有看过罗素的哲学，有没有受到罗素的影响，直接的或者间接的。但我在看到他们的行为心理学关于认知偏差和决策心理学的一些理论时，尤其是1972年的那篇《Judgment under uncertainty: heuristics and bias》后，个人感觉是他们的研究其实可以跟罗素的哲学理论联系在一起。他们在这篇经典文章中谈到了人类的认知有以下三个偏差：1、可获得性 2、代表性 3、锚定效应。可获得性指出人们在很多时候只是简单的依据他们已有的信息作出决策，而不是了解更加全面的信息去作出判断。代表性指人们在不确定性的情形下，往往会抓住问题的某个特征直接推断结果，而不考虑这种特征出现的真实概率以及与特征有关的其他原因。比如抛硬币，如果前五次出现的都是正面，大多数人会认为第6次出现的极大可能是。锚定效应指人们在进行判断时常常过分看重那些显著的，难忘的，从而产生的认识。这三个认知偏差，最后被纳入到kahneman《thinking, st and slow》一书中的思考快与慢的框架中。

　　其实，即便是统计模型，根据数据进行统计推断也很难得到可靠或者很准确的结果。何况是人类，往往对物体或者现象的数据或者信息掌握不全面，做出的判断和决策有偏差就在所难免了。基于此，如果决策是基于大量信息作出判断，那就交给统计或者计算机。

　　人的大脑就如同一个统计机, 从外部到信息, 在经过大脑这个统计模型的处理之后, 会对外部世界的物体/或现象做一个推断, 从而认识这个物体/现象.

　　这是一本关于数据分析软件的书：用计算机软件对外部数据进行组织、可视化、建模或者实施任何相关的计算，从而得到有价值的信息。当今世界，我们所有人都似乎淹没在数据的海洋里；在这个时代，从科学研究到商业管理等各个领域都需要我们用计算机软件从数据的海洋里提取有意义的信息。

　　这本书的目标读者是那些需要筛选、修改以及创建软件来对数据进行探索的人。简言之，编程。本书的编程以R系统为中心。R是一个开源的软件，广泛应用于处理数据并且给用户提供强大的技术支持。因此，书名叫做《用R编程》

　　R软件提供了一种交互式计算的语言，底层有用于数据管理、图形、数值计算、模型拟合、模拟以及很多其他任务的技术支持。快速增长的R软件包数量，使得R的核心系统本身得到极大的补充和丰富；作为开源软件，R被大量的应用。R软件旨在通过提供容易的入门机制和那些帮助用户进一步讨论严肃应用的技术，从而促进用户学习和开发编程。R的正幅图画～R系统、R语言、可轻松获得的软件包以及编程，拥有无与伦比的处理数据的资源。

　　同时，Programming with R 里的“with” 这个词非常重要。没有一个软件系统可以充分的探索和处理数据。我们强调用系统之间的接口来利用各系统的独特优势。

　　花点时间来学习和扩展自己的这种编程能力值得吗？当然值得，因为时间的投资可以提高发问的能力和得到答案的能力。带着合适的问题对数据进行探索，并且可以提供可靠的答案是分析数据的关键，这两个原则将会在数据分析中指导我们。

　　章节的顺序安排会使读者沿着连续的步骤从用户、程序员发展到贡献者，这也是R鼓励的循序渐进的过程。具体来说：用R软件就是从简单的编程，创建R软件包，用类和方法到系统内部接口（第2，3，4，9，10，11，12章）。这个次序反映了自然的学习过程，但是每个章节其实是的，并且附带大量参考文献鼓励读者去浏览学习。

　　其他的章节探索所有阶段（基本的计算、图形、文本处理阶段）都必需的计算技术。最后一章讨论了R是如何工作的，附录涉及了一些关于编程序言历史的话题。

　　本书中穿插着一些例子，篇幅从几段到几页，其中有些在其他地方继续作为展示不同技术的例子使用。请参考索引中的“例子”。如果时间允许，我鼓励读者去探索这些例子，思考这些计算是如何进化发展的，以及你是如何着手处理这些以及相关的例子。

　　这本书有一个匹配的R软件包，SoDA，这个软件包可以从CRAN库里得到，正如第四章所述。这本书里展示的大量函数和类都包括SoDA软件包中。这个软件包包含了大部分例子的程序代码。请参看那些软件包中例子的文档。

　　即使这本书有500页之多，但也只能涉及到相关话题的一小部分，其中一部分只进行了了非常浓缩的处理。我希望花时间阅读、思考并且交互的计算可以帮助我们阐明大部分讨论的内容。最后的一句话是关于在线文档尤其是软件；开源软件一个本质的好处是用户可以进行深度探索，从而发现到底正在发生什么。

　　首先，针对“数据分析师”；也就是，那些对探索和分析数据有兴趣的人，尤其是对严肃的科学研究有兴趣的人。这当然包括统计师，但是也包括其他很多领域的人，这些领域里的研究有丰富的数据，需要对数据进行探索和分析。在这里帮助读者实现这种探索是我们的。我希望并且期待，你们会发现用R和相关的软件做数据分析可以增强你们从数据中学习到知识的能力。

　　如果以前你从没用过R或者S-Plus，你应该在读本书之前读一些相对基本的内容。有许多书籍，甚至网站可供你们选择。尝试用“introduction” 或者 “introductory”和“R”组合起来进行搜索。下面这些书是比较一般的介绍。其他的关于介绍R在一些特定领域应用的书或者网站也开始出现。还有，用合适的术语进行网上搜索可能还会找到一些符合你个人兴趣的报告。

　　第二种目标读者是那些参与研究或者教授统计技术和理论的人。在研究领域以及把结果跟更大群体交流的领域，R和其他现代的软件系统变得至关重要。现在很多统计系的研究生项目开始提供R介绍课程。这本书旨在指导你们继续跟进，你们的软件对研究变得非常重要，并且常常是提供了一种分享结果和技术的渠道。我鼓励读者推进和组织自己的软件以便可以重新利用和增强扩展性，这里还包括创建R软件包跟其他人交流自己工作的前景。许多现在可以得到的R软件包就是源自这方面的努力。

　　第三种目标读者是那些对软件和编程有兴趣的人，尤其是对数据分析的软件感兴趣的工程师。R社区的努力已经使得R成为了一个非常卓越的打包软件的系统，并且给用户提供了一个很丰富的交流社区。用户可以在任何操作系统上下载R，并且进行数据分析。它的软件包机制也被很好的，不论是在中央CRAN库还是其他的库中。第四章介绍了如何用软件包和如何创建自己软件包。R也可以通过内部的接口，使得你的工作在其他系统中得以实施（第十一章和十二章有介绍）

　　许多第一和第二用户群的潜在读者可能会有一些关于R或者其他统计软件的经验，但是把他们的参与视为是只关心对得到答案有用的过程。这本书鼓励读者进一步到把根软件的交互过程视为是你参与过程中重要的、有价值的部分。你可能会觉得在以前没有做过太多编程，从而收到。不要担心。用R编程时一个循序渐进的过程，可以从一些简单的非正式的项目开始，然后逐步到大项目。当你用R时，你会发现它的一个特别的优势就是灵活性。通过对你平时用的一个命令语句进行简单的修改，你就可以定制化交互作图和数据分析过程来满足你的需求。这就是让你编成起飞的地方：如第三章和四章所展示的，你可以通过越来越雄心的步骤让你从最初的个人定制化计算发展到创建自己的软件。最后的结果可能是你对基于R系统的软件世界贡献你自己的知识。

　　关于如何阅读此书，当然你可能会发现各种有帮助或者很享受的方式。但是作者经常会设想跟读者对话交流的场景，在这里分享我设想的场景或许是有用的。在许多讨论中，我设想读者踌躇着如何开始，是选择一个特殊的技术角度还是选择一个在大量的操作软件进行数据分析的新阶段的方向。不同的章节绘述了这些许多R用户从最初的普通计算到全职做R社区贡献者的不同阶段。如果你可以结合着手头的R或者其他软件的交互界面，尤其是用SoDA软件包的例子进行操作，那大部分话题会变得清楚

　　本书不是R软件的食谱书，而是提供一般的技术和例子，旨在使读者可以达到广泛任务的水平，而不是达到只会做几个秘方菜的水平。此段甚佳，读者请细细品味，在此不做详细翻译。

　　生活尚且如此, 工作上的事情更需要如此, 制定好步骤, 然后一步一步地清清楚楚,\n把事情做好. 我们可以把这种按步骤来的方法叫做算法, 就是指把每一步都清楚地写下来, 形成一个具体的步骤框架, 也就是算法框架. 有了这个框架之后,加上详细的内容, 我们在生活里和工作中遇到的事情都可以很好的做完,保质保量.

相关阅读

网友评论 ()条查看

推荐文章更多

热门图文更多

最新文章更多