`
jickcai
  • 浏览: 239223 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark 抽样

    博客分类:
  • web
阅读更多

 use sessiondb;

 set NUM_SAMPLE = 30;
CREATE EXTERNAL TABLE task_samples
(
date_str string,
task_id string,
review_type string,
task_type string,
score string,
user_name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION "afs://dd.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples/{DATE}";
 
drop view if exists samples_data_db;
create temporary view samples_data_db as
SELECT 
date_str,task_id,review_type,task_type,score,user_name
FROM
(
SELECT 
*,
row_number() over (partition by user_name order by rand()) as `rnk`
FROM
task_samples
)
WHERE
rnk <= ${NUM_SAMPLE};
 
 
INSERT OVERWRITE DIRECTORY "afs://tt.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples-stat/{DATE}"
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
SELECT 
date_str,review_type,task_type,user_name,sum(pass_cnt) as pass_cnt,sum(un_pass_cnt) as un_pass_cnt , sum(samples_cnt) as samples_cnt
FROM
( SELECT 
date_str,review_type,task_type,user_name,
COUNT(IF(score="0", NULL, score)) as pass_cnt,
COUNT(IF(score="1", NULL, score)) as un_pass_cnt,
0 as samples_cnt
FROM  task_samples
GROUP BY date_str,review_type,task_type,user_name
UNION
SELECT 
date_str,review_type,task_type,user_name,0 as pass_cnt,0 as un_pass_cnt, count(*) as samples_cnt
FROM samples_data_db
GROUP BY date_str,review_type,task_type,user_name
)b
GROUP BY date_str,review_type,task_type,user_name
ORDER BY user_name ASC;

<iframe style="display: none !important;"></iframe>

<iframe style="display: none !important;"></iframe>

分享到:
评论

相关推荐

    spark-hpc:通过 PBS 批处理系统在 Linux 集群上运行 SPARK 应用程序

    对于CSIRO谝整群抽样的环境定义文件中的可用env目录。 例如: source set-dev-env.sh env/bragg_1.8_1.1.0环境定义文件的目的是加载所需版本的 spark-hpc 依赖项,包括: openmpi jdk 火花maven3(仅用于开发)测试...

    论文研究-基于Spark的分布式交通流数据预测系统.pdf

    并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度...

    randomized-LS-solvers:使用 Spark 解决大规模最小二乘问题的随机求解器

    使用 Spark 解决大规模最小二乘问题的随机求解...抽样:首先使用随机投影来估计杠杆分数,然后使用它们来构建抽样草图 对于投影方法,有四种选择: cw:稀疏计数草图类似变换( ) gaussian:密集高斯变换 rademache

    技巧篇:pyspark常用操作梳理

    基于spark.sql进行操作 创建临时表 创建临时视图 基于dataframe进行操作 了解表结构 查看数据 查看列名 持久化 列操作 列名称重命名 条件筛选 利用when做条件判断 利用between做多条件判断 in数据...

    大数据技术概述.pdf

    全样⽽⾮抽样,以前采⽤统计学抽样⽅式(存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算),⼤数 据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确,不苛求精确度,全样数据不存在误差放⼤问题,...

    Search-Ads-Web-Service

    •具有加权随机抽样算法(Python)的反向工程搜索日志。 •设计和实现的功能工程流水线,可生成功能以供查询理解和使用Python的Spark Map Reduce进行点击预测。 •通过Spark Map Reduce生成的TF-IDF数据。 技术栈 ...

    Yelp-Recommendation-System

    用于勘探的数据是从原始数据集中随机抽样的。 数据探索-评论数据集 cd data-exploration spark-submit reviews.py 5 10 reviewsExploration.txt 根据我们的抽样评论数据集: 从2004年到2018年,评论数量逐年增加 ...

    大数据项目实训总结-大数据分析处理实践的一点心得.pdf

    ⼤数据项⽬实训总结_⼤数据分析处理实践的⼀点⼼得 最近的项⽬中,需要...这个时候,可以采⽤抽样的⽅式先快速观察代码的输出,以提⾼调试效率。另外,尽可能减少不必要的输⼊数据,注意集群的⽇志输 出,也⾮常重要。

    开源力量——数据挖掘原理与实战

    整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几...

    大数据专业是学什么课程.pdf

    选修课:数据科学算法导论、数据科学专题、数据科学实践、互联⺴实⽤开发技术、抽样技术、统计学习、回归分析、随 机过程。 另外学习⼤数据必须要学习⼤数据中⼼常识,⼤数据技术体系很复杂,与物联⺴、移动互联⺴...

    大数据的基础知识.pdf

    在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《⼤数据时代》中⼤数据指不⽤随机分析法(抽样调查)这样捷径,⽽采⽤所有数据进 ⾏分析处理。⼤数据的5V特点(IBM提出):Volume(⼤量)、Velocity(⾼速)、...

    BI与大数据区别.docx

    在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、...

    大数据概述——精选推荐.pdf

    ⼤数据计算模式: ⼤数据计算 模式 解决问题 代表产品 批处理计算 针对⼤规模数据的批量处理 MapReduce、Spark等 流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流 数据...

Global site tag (gtag.js) - Google Analytics