常用统计分析 SQL 在 AWK 中的实现-技术博客集

常用统计分析 SQL 在 AWK 中的实现
编程技术 / houtizong 发布于 3年前 135

本文主要讲述如何在 awk 中实现 SQL 的常用操作，当做个简单的 awk 入门分享。
虽然文中部分 awk 会有其它更简洁高效的 shell 命令去完成，亦或是其它语言去完成，
但这都不在本文的讨论范畴。

注：本文所用到的两个测试文件 user、consumer，分别模拟两张 SQL 表：

user 表，字段：
id name addr

1 zhangsan hubei
3 lisi tianjin
4 wangmazi guangzhou
2 wangwu beijing

consumer 表，字段：
id cost date

1 15 20121213
2 20 20121213
3 100 20121213
4 99 20121213
1 25 20121114
2 108 20121114
3 100 20121114
4 66 20121114
1 15 20121213
1 115 20121114

测试环境：
OS 版本：
uname -a
CYGWIN_NT-6.1 june-PC 1.7.9(0.237/5/3) 2011-03-29 10:10 i686 Cygwin
awk 版本：
awk --version
GNU Awk 3.1.8

1、查询整张表记录，where 条件过滤，关键词：where
select * from user; awk 1 user;
select * from consumer where cost > 100;
awk '$2>100' consumer

2、对某个字段去重，或者按记录去重，关键词：distinct
select distinct(date) from consumer;
awk '!a[$3]++{print $3}' consumer
select distinct(*) from consumer;
awk '!a[$0]++' consumer

3、记录按序输出，关键词：order by
select id from user order by id;
awk '{a[$1]}END{asorti(a);for(i=1;i<=length(a);i++){print a[i]}}' user

4、取前多少条记录，关键词：limit
select * from consumer limit 2;
awk 'NR<=2' consumer
awk 'NR>2{exit}1' consumer # performance is better

5、分组求和统计，关键词：group by、having、sum、count
select id, count(1), sum(cost) from consumer group by id having count(1) > 2;
awk '{a[$1]=a[$1]==""?$2:a[$1]","$2}END{for(i in a){c=split(a[i],b,",");if(c>2){sum=0;for(j in b){sum+=b[j]};print i"\t"c"\t"sum}}}' consumer

6、模糊查询，关键词：like（like属于通配，也可正则 REGEXP）
select name from user where name like 'wang%';
awk '$2 ~/^wang/{print $2}' user
select addr from user where addr like '%bei';
awk '/.*bei$/{print $3}' user
select addr from user where addr like '%bei%';
awk '$3 ~/bei/{print $3}' user

7、多表 join 关联查询，关键词：join
select a.* , b.* from user a inner join consumer b on a.id = b.id and b.id = 2;
awk 'ARGIND==1{a[$1]=$0;next}{if(($1 in a)&&$1==2){print a[$1]"\t"$2"\t"$3}}' user consumer

8、多表水平联接，关键词：union all
select a.* from user a union all select b.* from user b;
awk 1 user user
select a.* from user a union select b.* from user b;
awk '!a[$0]++' user user

9、随机抽样统计，关键词：order by rand()
SELECT * FROM consumer ORDER BY RAND() LIMIT 2;
awk 'BEGIN{srand();while(i<2){k=int(rand()*10)+1;if(!(k in a)){a[k];i++}}}(NR in a)' consumer

转载地址：http://religiose.iteye.com/blog/1827495

上一篇：一个load过高的故障排查案例

下一篇：锁的粒度与死锁概率

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

<div style="font-size: 14px;"> 本文主要讲述如何在 awk 中实现 SQL 的常用操作，当做个简单的 awk 入门分享。 虽然文中部分 awk 会有其它更简洁高效的 shell 命令去完成，亦或是其它语言去完成， 但这都不在本文的讨论范畴。 注：本文所用到的两个测试文件 user、consumer，分别模拟两张 SQL 表： user 表，字段：&nbsp; id name &nbsp;addr&nbsp; 1 zhangsan hubei&nbsp; 3 lisi tianjin&nbsp; 4 wangmazi guangzhou&nbsp; 2 wangwu beijing&nbsp; consumer 表，字段：&nbsp; id cost date&nbsp; 1 15 20121213&nbsp; 2 20 20121213&nbsp; 3 100 20121213&nbsp; 4 99 20121213&nbsp; 1 25 20121114&nbsp; 2 108 20121114&nbsp; 3 100 20121114&nbsp; 4 66 20121114&nbsp; 1 15 20121213&nbsp; 1 115 20121114&nbsp; 测试环境：&nbsp; OS 版本：&nbsp; uname -a&nbsp; CYGWIN_NT-6.1 june-PC 1.7.9(0.237/5/3) 2011-03-29 10:10 i686 Cygwin&nbsp; awk 版本：&nbsp; awk --version&nbsp; GNU Awk 3.1.8&nbsp; 1、查询整张表记录，where 条件过滤，关键词：where select * from user; awk 1 user; select * from consumer where cost &gt; 100; awk '$2&gt;100' consumer 2、对某个字段去重，或者按记录去重，关键词：distinct select distinct(date) from consumer; awk '!a[$3]++{print $3}' consumer select distinct(*) from consumer; awk '!a[$0]++' consumer 3、记录按序输出，关键词：order by select id from user order by id; awk '{a[$1]}END{asorti(a);for(i=1;i&lt;=length(a);i++){print a[i]}}' user 4、取前多少条记录，关键词：limit select * from consumer limit 2; awk 'NR&lt;=2' consumer awk 'NR&gt;2{exit}1' consumer # performance is better 5、分组求和统计，关键词：group by、having、sum、count select id, count(1), sum(cost) from consumer group by id having count(1) &gt; 2; awk '{a[$1]=a[$1]==&quot;&quot;?$2:a[$1]&quot;,&quot;$2}END{for(i in a){c=split(a[i],b,&quot;,&quot;);if(c&gt;2){sum=0;for(j in b){sum+=b[j]};print i&quot;\t&quot;c&quot;\t&quot;sum}}}' consumer 6、模糊查询，关键词：like（like属于通配，也可正则 REGEXP） select name from user where name like 'wang%'; awk '$2 ~/^wang/{print $2}' user select addr from user where addr like '%bei'; awk '/.*bei$/{print $3}' user select addr from user where addr like '%bei%'; awk '$3 ~/bei/{print $3}' user 7、多表 join 关联查询，关键词：join select a.* , b.* from user a inner join consumer b &nbsp;on a.id = b.id and b.id = 2; awk 'ARGIND==1{a[$1]=$0;next}{if(($1 in a)&amp;&amp;$1==2){print a[$1]&quot;\t&quot;$2&quot;\t&quot;$3}}' user consumer 8、多表水平联接，关键词：union all select a.* from user a union all select b.* from user b; awk 1 user user select a.* from user a union select b.* from user b; awk '!a[$0]++' user user 9、随机抽样统计，关键词：order by rand() SELECT * FROM consumer ORDER BY RAND() LIMIT 2; awk 'BEGIN{srand();while(i&lt;2){k=int(rand()*10)+1;if(!(k in a)){a[k];i++}}}(NR in a)' consumer &nbsp; 转载地址：<a href="http://religiose.iteye.com/blog/1827495" target="_blank">http://religiose.iteye.com/blog/1827495</a> </div>

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接

首页
关于我们

Auther ·HouTiZong: 侯体宗的博客