139天前2020-05-09 10:00:54 |    抢沙发  164 
最近网站因为调整参数了很多的404页面,光抓出404页面程序就跑了1天多,然后产生了1个100多万条数据的文件,但是百度提交最大只能10M 5W条数据,于是就有了本文的在linux系统下利用shell命令split快速分割文件并按照数字规律命名和添加后缀。

这里我先上代码再做解释:

split url_error.txt -l 50000 -d -a 2 error_url_&&ls|grep error_url_|xargs -n1 -i{} mv {} {}.txt
我解释一下上面的代码:

这里分为两段:

第一段是:

split url_error.txt -l 50000 -d -a 2 error_url_
这里是对文件进行按行分割

url_error.txt:要分割的文件;

-l:按行分割 后面跟多少行;

-d:添加数字后缀,比如上图中的00,01,02;

-a 2:表示用两位数据来顺序命名;

error_url_:表示新产生的文件前缀;

PS:如果要按照大小来分割就是直接吧-l改为-d 然后后面跟文件大小,可以指定单位b,k,m

我再来解释一下第二条命令:

ls|grep error_url_|xargs -n1 -i{} mv {} {}.txt
参数解释:

error_url_ 为新产生的文件名前缀

.txt 是要添加的文件后缀或者叫扩展名

其他参数我就不解释了

发表评论

暂无评论

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享