数据埋点日志awk脚本快速入库-技术博客集

数据埋点日志awk脚本快速入库
编程技术 / houtizong 发布于 3年前 108

工作上有这样一个需求：

服务端每天产生的埋点日志比较多>200万行,凌晨2点将这个日志的数据入库到数据库，便于BI分析。

最初我的思路是：写一个shell脚本，将入库的逻辑放入shell脚本中，再将这个shell脚本放入到linux服务器crontab任务中。

说起来简单，但在编写的过程中遇到了问题，主要是日志量大，入库的速度很慢，最初的实现是

cat statlog.log | while read line 这种遍历日志，按行读取来入库，速度超慢。

经优化，采用awk的方式来做：

1,代码如下：

BEGIN{    FS=","       user="test"    passwd="test"    host="192.168.0.9"    print "==============start=================="    sqlInsert="INSERT INTO log.logs_mobile_stat (p1, p2, p3, p4, p5, type, cookie, user_id, time, platform) VALUES"    sql=sqlInsert    idx=0    conMysql="mysql -h" host " -u" user " -p'" passwd "' log -e " "date +%Y-%m-%d\ %H:%M:%S" | getline time;print time;}{idx=idx+1#每1000条记录拼接长一条sqlif(idx==1000){sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"');"sql=sql sqlValuesstr=conMysql "\"" sql "\" "system(str)idx=0sql=sqlInsert}else{sqlValues="('"$2"', '"$3"', '"$4"', '"$5"', '"$6"', '"$7"', '"$8"', '"$9"','"$1"','"$10"'),"sql=sql sqlValues}}END{         #去掉最后的分号sql= substr(sql, 0, length(sql))    str=conMysql "\"" sql "\" "#执行最后不足1000条记录的sqlif(idx>0 && idx<1000){system(str)print"=============end============idx====="idx}    "date +%Y--%m-%d\ %H:%M:%S" | getline time2;print time2    print"=============end================="}

2,将上面的代码保存为stat.awk文件，写个调度stat.awk文件的shell，文件名为executeStat.sh

#!/bin/shdate=`date   -d   -1day +%Y-%m-%d`; log=/home/www/logs/taofen8/api/statlog.log.$date sudo awk -f /tmp/stat.awk  $log

3,将executeStat.sh加入到crontab定时任务中，每天凌晨2点执行

0 2 * * * sudo /tmp/executeStat.sh > /tmp/stat.log

经线上测试，200万左右的日志入库2分钟左右，速度还可以吧。

上一篇：统计push点击次数的shell脚本版本2

下一篇：linux定位异常前后日志信息

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

<div style="font-size: 14px;" > &nbsp; 工作上有这样一个需求： &nbsp; &nbsp;服务端每天产生的埋点日志比较多&gt;200万行,凌晨2点将这个日志的数据入库到数据库，便于BI分析。 &nbsp; &nbsp; &nbsp;最初我的思路是：写一个shell脚本，将入库的逻辑放入shell脚本中，再将这个shell脚本放入到linux服务器crontab任务中。 &nbsp; &nbsp;说起来简单，但在编写的过程中遇到了问题，主要是日志量大，入库的速度很慢，最初的实现是 &nbsp; &nbsp;cat statlog.log&nbsp;|&nbsp;while&nbsp;read&nbsp;line &nbsp;这种遍历日志，按行读取来入库，速度超慢。 &nbsp; 经优化，采用awk的方式来做： &nbsp; &nbsp;1,代码如下： &nbsp; &nbsp; <pre name="code" class="shell">BEGIN{ FS=&quot;,&quot; user=&quot;test&quot; passwd=&quot;test&quot; host=&quot;192.168.0.9&quot; print &quot;==============start==================&quot; sqlInsert=&quot;INSERT INTO log.logs_mobile_stat (p1, p2, p3, p4, p5, type, cookie, user_id, time, platform) VALUES&quot; sql=sqlInsert idx=0 conMysql=&quot;mysql -h&quot; host &quot; -u&quot; user &quot; -p'&quot; passwd &quot;' log -e &quot; &quot;date +%Y-%m-%d\ %H:%M:%S&quot; | getline time;print time;}{idx=idx+1#每1000条记录拼接长一条sqlif(idx==1000){sqlValues=&quot;('&quot;$2&quot;', '&quot;$3&quot;', '&quot;$4&quot;', '&quot;$5&quot;', '&quot;$6&quot;', '&quot;$7&quot;', '&quot;$8&quot;', '&quot;$9&quot;','&quot;$1&quot;','&quot;$10&quot;');&quot;sql=sql sqlValuesstr=conMysql &quot;\&quot;&quot; sql &quot;\&quot; &quot;system(str)idx=0sql=sqlInsert}else{sqlValues=&quot;('&quot;$2&quot;', '&quot;$3&quot;', '&quot;$4&quot;', '&quot;$5&quot;', '&quot;$6&quot;', '&quot;$7&quot;', '&quot;$8&quot;', '&quot;$9&quot;','&quot;$1&quot;','&quot;$10&quot;'),&quot;sql=sql sqlValues}}END{ #去掉最后的分号sql= substr(sql, 0, length(sql)) str=conMysql &quot;\&quot;&quot; sql &quot;\&quot; &quot;#执行最后不足1000条记录的sqlif(idx&gt;0 &amp;&amp; idx&lt;1000){system(str)print&quot;=============end============idx=====&quot;idx} &quot;date +%Y--%m-%d\ %H:%M:%S&quot; | getline time2;print time2 print&quot;=============end=================&quot;}</pre> &nbsp; &nbsp; &nbsp; &nbsp;2,将上面的代码保存为stat.awk文件，写个调度stat.awk文件的shell，文件名为executeStat.sh &nbsp; &nbsp; <pre name="code" class="shell">#!/bin/shdate=`date -d -1day +%Y-%m-%d`; log=/home/www/logs/taofen8/api/statlog.log.$date sudo awk -f /tmp/stat.awk $log</pre> &nbsp; &nbsp; &nbsp; 3,将executeStat.sh加入到crontab定时任务中， 每天凌晨2点执行 &nbsp; &nbsp; 0 2 * * * &nbsp;sudo /tmp/executeStat.sh &gt; /tmp/stat.log &nbsp; &nbsp; &nbsp; &nbsp; 经线上测试，200万左右的日志入库2分钟左右，速度还可以吧。 &nbsp; </div>

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接

首页
关于我们

Auther ·HouTiZong: 侯体宗的博客