spark 抽样 - web - ITeye博客

`

jickcai

浏览: 239223 次
性别:
来自: 北京

最近访客更多访客>>

zllhit

lxch257

lifeifeijack

sunanwenjun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

seraph_fd：已取用，谢谢。但将base64编码换成了Hex编码。
AES 加密 PHP 和 JAVA 互通
洋葱骑士：调了一下OK了可是运行的时候，访问不了网站，出现域名错误
flexbuilder 和eclipse 整合 BlazeDs
洋葱骑士：出错了。。。。-无法将“<mx:RemoteObject ...
flexbuilder 和eclipse 整合 BlazeDs
raxliao：这个只支持16位的密钥，而且密码不能只能aes的随机码。不过测 ...
AES 加密 PHP 和 JAVA 互通
cnfnidt： wwwwwwwwww
flex4 解析XML 例子

spark 抽样

博客分类：

web

阅读更多

use sessiondb;

set NUM_SAMPLE = 30;

CREATE EXTERNAL TABLE task_samples

(

date_str string,

task_id string,

review_type string,

task_type string,

score string,

user_name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

LOCATION "afs://dd.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples/{DATE}";

drop view if exists samples_data_db;

create temporary view samples_data_db as

SELECT

date_str,task_id,review_type,task_type,score,user_name

FROM

(

SELECT

*,

row_number() over (partition by user_name order by rand()) as `rnk`

FROM

task_samples

)

WHERE

rnk <= ${NUM_SAMPLE};

INSERT OVERWRITE DIRECTORY "afs://tt.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples-stat/{DATE}"

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

SELECT

date_str,review_type,task_type,user_name,sum(pass_cnt) as pass_cnt,sum(un_pass_cnt) as un_pass_cnt , sum(samples_cnt) as samples_cnt

FROM

( SELECT

date_str,review_type,task_type,user_name,

COUNT(IF(score="0", NULL, score)) as pass_cnt,

COUNT(IF(score="1", NULL, score)) as un_pass_cnt,

0 as samples_cnt

FROM task_samples

GROUP BY date_str,review_type,task_type,user_name

UNION

SELECT

date_str,review_type,task_type,user_name,0 as pass_cnt,0 as un_pass_cnt, count(*) as samples_cnt

FROM samples_data_db

GROUP BY date_str,review_type,task_type,user_name

)b

GROUP BY date_str,review_type,task_type,user_name

ORDER BY user_name ASC;

<iframe style="display: none !important;"></iframe>

<iframe style="display: none !important;"></iframe>

分享到：

rsync | awk 输出单引号

2023-11-29 09:58
浏览 105
评论(0)
分类:移动开发
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-hpc:通过 PBS 批处理系统在 Linux 集群上运行 SPARK 应用程序: 对于CSIRO谝整群抽样的环境定义文件中的可用env目录。例如： source set-dev-env.sh env/bragg_1.8_1.1.0环境定义文件的目的是加载所需版本的 spark-hpc 依赖项，包括： openmpi jdk 火花maven3（仅用于开发）测试...

论文研究-基于Spark的分布式交通流数据预测系统.pdf: 并提出了分布式情况下梯度优化决策树模型实现的优化方法，包括切分点抽样、特征装箱和逐层训练三种，提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势，以及梯度...

randomized-LS-solvers:使用 Spark 解决大规模最小二乘问题的随机求解器: 使用 Spark 解决大规模最小二乘问题的随机求解...抽样：首先使用随机投影来估计杠杆分数，然后使用它们来构建抽样草图对于投影方法，有四种选择： cw：稀疏计数草图类似变换（） gaussian：密集高斯变换 rademache

技巧篇：pyspark常用操作梳理: 基于spark.sql进行操作创建临时表创建临时视图基于dataframe进行操作了解表结构查看数据查看列名持久化列操作列名称重命名条件筛选利用when做条件判断利用between做多条件判断 in数据...

大数据技术概述.pdf: 全样⽽⾮抽样，以前采⽤统计学抽样⽅式（存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算），⼤数据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确，不苛求精确度，全样数据不存在误差放⼤问题，...

Search-Ads-Web-Service: •具有加权随机抽样算法（Python）的反向工程搜索日志。 •设计和实现的功能工程流水线，可生成功能以供查询理解和使用Python的Spark Map Reduce进行点击预测。 •通过Spark Map Reduce生成的TF-IDF数据。技术栈 ...

Yelp-Recommendation-System: 用于勘探的数据是从原始数据集中随机抽样的。数据探索-评论数据集 cd data-exploration spark-submit reviews.py 5 10 reviewsExploration.txt 根据我们的抽样评论数据集：从2004年到2018年，评论数量逐年增加 ...

大数据项目实训总结-大数据分析处理实践的一点心得.pdf: ⼤数据项⽬实训总结_⼤数据分析处理实践的⼀点⼼得最近的项⽬中，需要...这个时候，可以采⽤抽样的⽅式先快速观察代码的输出，以提⾼调试效率。另外，尽可能减少不必要的输⼊数据，注意集群的⽇志输出，也⾮常重要。

开源力量——数据挖掘原理与实战: 整套大数据课程从hadoop入门开始，由浅入深，内置“hadoop源码解析与企业应用开发实战”，“Hive开发实战”，“Hbase开发实战”，“Spark，mahout，sqoop，storm诸模块开发实战”，“数据挖掘基础。这个系列课程有几...

大数据专业是学什么课程.pdf: 选修课：数据科学算法导论、数据科学专题、数据科学实践、互联⺴实⽤开发技术、抽样技术、统计学习、回归分析、随机过程。另外学习⼤数据必须要学习⼤数据中⼼常识，⼤数据技术体系很复杂，与物联⺴、移动互联⺴...

大数据的基础知识.pdf: 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《⼤数据时代》中⼤数据指不⽤随机分析法（抽样调查）这样捷径，⽽采⽤所有数据进⾏分析处理。⼤数据的5V特点（IBM提出）：Volume（⼤量）、Velocity（⾼速）、...

BI与大数据区别.docx: 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、...

大数据概述——精选推荐.pdf: ⼤数据计算模式：⼤数据计算模式解决问题代表产品批处理计算针对⼤规模数据的批量处理 MapReduce、Spark等流计算针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据...

Global site tag (gtag.js) - Google Analytics