`
文章列表
由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller 1.   Transformation Transformation是通过转化针对已有的RDD创建出新的RDD map(func):对调用map的RDD数据集中的每 ...
第15课:RDD创建内幕 1.       RDD的创建方式 Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体的算法 Spark中的基本方式: 1)       使用程序中
开篇:spark各种库,sparksql,sparkmachicelearning,等这么多库底层都是封装的RDD。意味着 1:RDD本身提供了通用的抽象, 2:spark现在有5个子框架,sql,Streaming,流式处理,机器学习,图计算,sparkR。可以根据具体领域的内容建模,建第6个库,第7个库。必须掌握spark的这个通用抽象基石-RDD.  
书评:     个人觉以下三位的书评很好的概括了本书:         1.李开复的书评,成功公式: 才智+勤奋 + 机遇 + 社会环境 = 成功,其中机遇和社会环境是常常被我们忽略的         2.唐骏,我们只要掌握了成功的规律,就能创造缤纷多彩的人生,异类告诉我们成功规律发挥作用的前提条件是我们要正视我们的环境和机遇         3.徐*小#平,成功规律个失意的人带来勇气,给得意的人带来启迪     总结关键词,成功的规律,尤其是环境和机遇   序言,罗赛托之谜     
猫和桃子去吃回转寿司。桃子让猫从转盘上随机取下k个碟子。猫应该怎么做? 已知: 1、猫和桃子坐在最上游的位置,从厨房伸出来的传送带会在第一时间把厨师做好的寿司送到他们面前。 2、从猫眼前经过的寿司如果不被猫取下来,则会被坐在下家的兔子们吃光,而不会再转回来。(每个寿司只经过一次) 3、桌子上只能容纳下k个碟子。 4、如果取下的寿司没有被吃过,可以被重新放回去。 5、虽然厨师已经停止生产新的寿司了,但是传送带在厨房里的部分很长,猫不知道已经生产了多少寿司。(为了讨论方便,设一共N碟寿司,并且N≥k) 6、猫脑袋可以生成随机数。   Ok,以上表述纯粹是好玩。实际上是做这样一件事 ...
      Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。      在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,因此迫不及待将Spark1.4下载试用一下。       关于Spark1.4的安装配置,和1.3无异,安装配置步骤可参考 Spark1.3.1安装配置运行。     ...
上篇文章讲到一个悖论,这里解开悖论的什么面纱 上篇文章地址http://zhou-yuefei.iteye.com/blog/2220357   「游客没有输入任何新的信息」这个断言是错的。N=1的情形不必说了,显然输入了新信息。对于N>1的情形,要注意,游客必须是当着所有人的面公开做出宣告,如果他是私下分别对每个人说的,就不会起任何作用。「公开宣告」这一举动的意义不是让每个人都知道「岛上有红眼睛」,而是让每个人都知道「每个人都知道每个人都知道……每个人都知道岛上有红眼睛」。在游客公开宣告之前,岛上的人是不可能具有这个多阶知识的,这就是游客输入的新信息。以N=2为例,公开宣告之后, ...
一个关于数学归纳法的悖论问题:到底是第 N 天有 N 个红眼睛自杀,还是什么都不会发生?修改 此问题最早据说是澳大利亚的华裔数学神童陶哲轩在网上贴出来让大家思考,逗大家玩儿的。补题源:http://terrytao.wordpress.com ...
原创文章,转载请注明:转载自 周岳飞博客(http://zhou-yuefei.iteye.com/) 首先回顾一下单例模式(Singleton) 单例对象(Singleton)是一种常用的设计模式。在Java应用中,单例对象能保证在一个JVM中,该对象只有一个实例存在。这样的模式有几个好处: 1、某些类创建比较频繁,对于一些大型的对象,这是一笔很大的系统开销。 2、省去了new操作符,降低了系统内存的使用频率,减轻GC压力。 3、有些类如交易所的核心交易引擎,控制着交易流程,如果该类可以创建多个的话,系统完全乱了。(比如一个军队出现了多个司令员同时指挥,肯定会乱成一团),所以只有 ...
    Java内存模型规范了Java虚拟机与计算机内存是如何协同工作的。Java虚拟机是一个完整的计算机的一个模型,因此这个模型自然也包含一个内存模型——又称为Java内存模型。 如果你想设计表现良好的并发程序,理解Java内存模型是非常重要的。Java内存模型规定了如何和何时可以看到由其他线程修改过后的共享变量的值,以及在必须时如何同步的访问共享变量。 原始的Java内存模型存在一些不足,因此Java内存模型在Java1.5时被重新修订。这个版本的Java内存模型在Java8中人在使用。 Java内存模型内部原理 Java内存模型把Java虚拟机内部划分为线程栈和堆。这张图 ...
内存屏障 原文地址  作者:Martin Thompson  译者:一粟   校对:无叶,方腾飞 本文我将和大家讨论并发编程中最基础的一项技术:内存屏障或内存栅栏,也就是让一个CPU处理单元中的内存状态对其它处理单元可见的一项技术。 CPU使用了很多优化技术来实现一个目标:CPU执行单元的速度要远超主存访问速度。在上一篇文章 “Write Combing (合并写)”中我已经介绍了其中的一项技术。CPU避免内存访问延迟最常见的技术是将指令管道化,然后尽量重排这些管道的执行以最大化利用缓存,从而把因为缓存未命中引起的延迟降到最小。 当一个程序执行时,只要最终的结果是一样的,指令是否被 ...
1.原始问题 假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题: 称为约束最优化问题的原始问题。 现在如果不考虑约束条件,原始问题就是: 因为假设其连续可微,利用高中的知识,对求导数,然后令导数为0,就可解出最优解,很easy. 那么,问题来了(呵呵。。。),偏偏有约束条件,好烦啊,要是能想办法把约束条件去掉就好了,bingo! 拉格朗日函数就是干这个的。 引进广义拉格朗日函数(generalized Lagrange function): 不要怕这个式子,也不要被拉格朗日这个高大上的名字给唬住了,让我们慢慢 ...
问题描述:统计某个号码被哪些号码呼叫了 输入文件如下: 13588888888 112 13678987879 13509098987 18987655436 110 2543789    112 15699807656 110 011-678987 112 说明:每一行为一条电话通话记录,左边的号码(记为a)打给右边的号码(记为b号码),中间用空 ...
Global site tag (gtag.js) - Google Analytics