Storm DRCP应用(计算推特Reach值)

需求 针对twitter网站上的一篇推文的接触用户(也叫REACH值)进行统计。 Reach值让你了解推文的真实覆盖到的用户群体, 要计算一个推文URL的Reach值,需要以下4步: 根据推文的URL查询数据库获取全部直接接触用户(转发的用户) 再根据接触用户通过查询数据库获取每个用户的全部粉丝 对粉丝集合中的用户进行去重处理 最后统计去重后的用户数, 即这个推文的Reach值 拓扑定义 一个单独的Reach计算在计算期间可能涉及到数千次数据库访问和数千万的粉丝记录查询,可能是一... ... [查看更多]

Views: 340

Kafka Producer API

http://kafka.apache.org/25/documentation.html#api Kafka 架构回顾 1)Producer :消息生产者,就是向kafka broker发消息的客户端; 2)Consumer :消息消费者,向kafka broker取消息的客户端; 3)Topic :可以理解为一个队列; 4) Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)... ... [查看更多]

Views: 471

Storm DRPC

分布式远程过程调用 所谓过程调用就是指方法调用, 讲解分布式远程过程调用前先看一看什么是普通方法调用和远程过程调用. 普通方法调用 以一个普通Java类中的方法为例: 远程过程调用 RPC = Remote Procedure Call(远程过程调用) RPC即在一台机器以远程的方式调用另外一台机器中的应用中的功能(方法或函数) Storm中使用的Thrift就是一个RPC框架, Thrift由C++编写,但可以支持很多语言。要创建一个Thrift服务,必须写一些Thrif... ... [查看更多]

Views: 382

Storm 集群搭建和自定义调度器

编写项目并打包上传 为了方便, 这里我们把自定义调度器DirectScheduler和测试用拓扑程序DirectScheduledTopology放在一个项目中. pom.xml 自定义Scheduler 测试用拓扑 打成jar包, 上传至nimbus所在节点的storm下的lib目录下 集群环境搭建(3节点) 准备三台机器,hadoop001, hadoop002, hadoop003. 我们希望hadoop001启动: nimbus, ui, logviewer, supe... ... [查看更多]

Views: 307

Storm计算网站PV和UV(实现可靠处理)

需求分析 编写Storm拓扑实现可靠计算网站当日PV和UV 重点: 去重计算模式 实现可靠处理 电商常用指标之PV、UV、VV、独立IP PV(访问量):Page View, 即页面浏览量或点击量,用户每次访问即被计算一次。 UV(独立访客):Unique Visitor, 访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只会被计算一次。 VV即Visit View,访客访问的次数,用以记录所有访客一天内访问量多少次网站。 IP(独立IP):指独立IP... ... [查看更多]

Views: 325