filebeat占用Linux空间未释放的问题解决

本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer,已开源在github ,欢迎star!

本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录,这是我花了6个月总结的一线大厂Java面试总结,本人已拿大厂offer,欢迎star

原文链接:blog.ouyangsihai.cn >> filebeat占用Linux空间未释放的问题解决

filebeat占用Linux空间未释放的问题解决

我们的一台应用服务器,操作系统是Red Hat Linux,监控报警,/opt/applog文件系统使用率超阈值,整体容量为50G,但发现实际文件容量20G,剩下的30G空间是什么?

我们知道,Linux环境下,任何事物,都是以文件的形式存在,系统在后台,为每个应用程序,分配了一个文件描述符,他为应用程序和操作系统之间的交互操作提供了通用的接口,既然是文件,就会占用空间,此时可以使用lsof指令,他可以列出,当前系统正在打开的文件。

lsof

COMMAND      PID      USER   FD      TYPE    DEVICE  SIZE/OFF      NODE NAME

...

filebeat  111442   app  1r      REG     253,3 209715229   1040407 /opt/applog/E.20171016.info.012.log filebeat  111442   app  2r      REG     253,3 209715254    385080 /opt/applog/E.20171015.info.001.log (deleted)

...

表头各字段,含义如下:

COMMAND:进程的名称 PID:进程标识符 USER:进程所有者 FD:文件描述符,应用程序通过文件描述符识别该文件。如cwd、txt等 TYPE:文件类型,如DIR、REG等 DEVICE:指定磁盘的名称 SIZE:文件的大小 NODE:索引节点(文件在磁盘上的标识) NAME:打开文件的确切名称

可以看出,有一些行中,NAME标识了(deleted),

/opt/applog/E.20171015.info.001.log (deleted)

他的含义,就是这文件已被删除,但打开文件的句柄,并未关闭,再看COMMAND的名称是filebeat,USER进程所有者是app,这是我们的日志采集进程,app用户开启了filebeat进程。

插播一下日志采集平台

传统的开源日志平台,即ELK,由ElasticSearch、Logstash和Kiabana三个开源工具组成,其中,

  • Elasticsearch是个开源分布式搜索引擎,分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。
  • Logstash是一个开源的采集工具,他可以对日志进行收集、过滤,并将其存储供以后使用。
  • Kibana是一个开源的图形Web工具,可以为Logstash和ElasticSearch提供日志分析友好的Web界面,可以汇总、分析和搜索重要数据日志。
  • 常见的部署图,如下所示,

    filebeat占用Linux空间未释放的问题解决

    对于上面提到的filebeat又是什么?和ELK有什么联系?

    知乎上有一段大牛饶琛琳的介绍(《ELKstack权威指南》作者),非常精辟,

    引自https://www.zhihu.com/question/54058964/answer/137882919

    因为logstash是jvm跑的,资源消耗比较大,所以后来作者又用golang写了一个功能较少但是资源消耗也小的轻量级的logstash-forwarder。不过作者只是一个人,加入http://elastic.co公司以后,因为es公司本身还收购了另一个开源项目packetbeat,而这个项目专门就是用golang的,有整个团队,所以es公司干脆把logstash-forwarder的开发工作也合并到同一个golang团队来搞,于是新的项目就叫filebeat了。

    filebeat占用Linux空间未释放的问题解决

    简单来讲,filebeat就是日志采集的进程agent,负责采集应用日志文件。

    对于我上面的这个问题,之所以有大量的(deleted),未释放文件句柄,还有个背景,就是由于磁盘空间非常有限,临时加了任务,每小时删除12小时前的日志,换句话说,定时任务会自动删除此时filebeat正在打开着的一些文件,于是这些文件,就变为了未释放的文件,因此实际文件删除了,但空间未被释放。

    解决方案1:

    为了迅速释放空间占用,最直接的方法,就是kill -9 filebeat进程,此时空间会释放。但并不是从根本解决,定时任务还会删除这些,filebeat打开的文件,导致空间满。

    解决方案2:

    filebeat的配置文件filebeat.yml,其实有两个参数,

    close_older: 1h
    说明:Close older closes the file handler for which were not modified for longer then close_older. Time strings like 2h (2 hours), 5m (5 minutes) can be used.

    即如果一个文件在某个时间段内没有发生过更新,则关闭监控的文件handle,默认1小时。

    force_close_files: false

    说明:This option closes a file, as soon as the file name changes. This config option is recommended on windows only. Filebeat keeps the files it's reading open. This can cause issues when the file is removed, as the file will not be fully removed until also Filebeat closes the reading. Filebeat closes the file handler after ignore_older. During this time no new file with the same name can be created. Turning this feature on the other hand can lead to loss of data on rotate files. It can happen that after file rotation the beginning of the new file is skipped, as the reading starts at the end. We recommend to leave this option on false but lower the ignore_older value to release files faster.

    即当文件名称有变化时,包括改名和删除,会自动关闭一个文件。

    这两个参数结合起来,根据应用需求,一个文件30分钟内不更新,则需要关闭句柄,文件改名或删除,需要关闭句柄,

    close_older: 30m

    force_close_files: true

    可以满足,filebeat采集日志,以及定时删除历史文件,这两个任务的基本要求。

    谢谢彬大师,对这个问题的指点,除此之外,推荐一位朋友的文章,

    《OOM内存溢出合集》

    https://mp.weixin.qq.com/mp/homepage?__biz=MzAwOTI0NzY5NQ==&hid=2&sn=feab0034116a22d49f0c99598edc28fd#wechat_redirect

    如果您觉得此篇文章对您有帮助,欢迎关注微信公众号:bisal的个人杂货铺,您的支持是对我最大的鼓励!共同学习,共同进步:)

    filebeat占用Linux空间未释放的问题解决 filebeat占用Linux空间未释放的问题解决
    本人花费半年的时间总结的《Java面试指南》已拿腾讯等大厂offer,已开源在github ,欢迎star!

    本文GitHub https://github.com/OUYANGSIHAI/JavaInterview 已收录,这是我花了6个月总结的一线大厂Java面试总结,本人已拿大厂offer,欢迎star

    原文链接:blog.ouyangsihai.cn >> filebeat占用Linux空间未释放的问题解决


     上一篇
    探索索引的奥秘 – 有索引就一定会用么? 探索索引的奥秘 – 有索引就一定会用么?
    上一篇文章《》,我们了解了索引的属性,回顾一下, 索引设置为unusable,会有以下特点,     1. 索引设置为unusable,此时会删除索引段。     2. 索引处于unusable期间,对表数据做DML操作,此时不
    下一篇 
    探索索引的奥秘 – 10053事件 探索索引的奥秘 – 10053事件
    之前我们了解了索引的属性,以及一些对于是否能用索引似是而非的场景,相应的说明和结论可以参考, 《》 《》 对于一条SQL,是否可以用索引,在CBO下,是依赖于Oracle对于不同执行计划成本值预估的判断,下面这张图是Concept