怎样快速查看通用日志?

Linux系统宕机原因排查指南

当Linux服务器意外宕机时,快速定位原因对恢复服务至关重要,以下是详细的排查方法,按优先级排序:


查看系统日志(关键入口)

系统日志是首要排查点,存储路径因发行版而异:

tail -n 100 /var/log/syslog       # Ubuntu/Debian
# 内核专属日志
grep -i "error\|panic\|oom\|segfault" /var/log/kern.log

重点关注

  • kernel panic:内核级致命错误
  • Out of memory (OOM):内存耗尽
  • segfault:应用程序内存越界
  • 硬件错误(如I/O errorCPU soft lockup

使用 dmesg 分析内核缓冲

内核环形缓冲区记录崩溃前的最后信息:

dmesg -T | tail -n 200  # -T 显示可读时间戳

典型场景

  • 硬件故障SMART failure(硬盘)、EDAC MC Error(内存)
  • 驱动问题NMI watchdogBUG: soft lockup
  • 资源枯竭oom-killer进程名

检查系统服务日志(systemd 环境)

使用 journalctl 查询服务崩溃记录:

journalctl -b -1 -p 3  # 查看上次启动(-b -1)的错误(priority 3以上)
journalctl -k --since "2 hours ago"  # 仅内核日志

分析内存转储文件(高级诊断)

若配置了 kdump,内存转储文件在 /var/crash/ 目录:

crash /var/crash/vmcore /usr/lib/debug/lib/modules/$(uname -r)/vmlinux

操作示例

crash> bt    # 查看崩溃时的调用栈
crash> ps    # 显示崩溃瞬间的进程状态

⚠️ 前提条件:需提前配置kdump(官方配置指南)


硬件健康检查

  • 硬盘状态
    smartctl -a /dev/sda | grep -e "Reallocated_Sector" -e "Pending_Sector"
  • 内存测试
    memtester 1G 1    # 测试1GB内存(需安装memtester)
  • 服务器硬件日志
    ipmitool sel list  # 需硬件支持IPMI

资源使用回溯

通过 sar(sysstat包)查看历史资源数据:

sar -r -u -q -f /var/log/sa/sa$(date +%d -d yesterday)  # 查看昨日数据

关键指标

  • %memused >95% → 内存耗尽
  • runq-sz > CPU核心数 → CPU过载
  • await > 100ms → 磁盘I/O瓶颈

常见宕机原因速查表

现象 可能原因 验证命令
系统无响应 内存耗尽/OOM dmesg | grep -i oom
强制重启 硬件故障(CPU/内存) dmidecode -t memory
内核崩溃 驱动或内核bug modinfo 驱动名
文件系统只读 磁盘损坏 smartctl -a /dev/sda
SSH断开后无法连接 网络或高负载 sar -n DEV 1 3

预防建议

  1. 监控配置:部署Prometheus+Alertmanager监控内存/磁盘/CPU阈值
  2. 内核调优
    echo "vm.panic_on_oom=0" >> /etc/sysctl.conf  # 禁用OOM时panic
    echo "kernel.sysrq=1" >> /etc/sysctl.conf     # 启用SysRq紧急调试
  3. 定期维护
    • 更新内核:yum update kernel / apt upgrade linux-image-generic
    • 检查硬件:每月执行smartctlmemtester

引用说明

  • 内核文档:Kernel Crash Dump Guide
  • 系统调试工具:sysstat、crash、ipmitool 官方手册
  • 最佳实践参考:Red Hat Troubleshooting Guide

通过系统日志、硬件检查、资源分析三管齐下,90%的宕机原因可被快速定位,复杂场景建议结合crash工具深度分析转储文件。

原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/8740.html

(0)
酷番叔酷番叔
上一篇 2025年7月26日 15:04
下一篇 2025年7月26日 15:30

相关推荐

  • Linux如何查看缓存文件的格式?

    在Linux系统中,缓存文件是提升系统性能的关键组件,它们存储了频繁访问的数据副本,减少磁盘I/O和计算开销,查看缓存文件的格式有助于理解系统或应用程序的数据存储方式,排查性能问题或进行调试,本文将详细介绍Linux中不同类型缓存文件的查看方法,涵盖系统级缓存、应用程序缓存及包管理器缓存等场景,并结合具体命令和……

    2025年9月17日
    7300
  • 在Linux系统下如何正确打开Oracle数据库服务?

    在Linux系统下操作Oracle数据库,通常涉及启动数据库实例、监听器以及连接管理工具等步骤,具体操作需根据Oracle版本(如11g、12c、19c等)和安装方式(如RPM、手动安装)略有差异,但核心流程基本一致,以下从环境准备、实例启动、监听器配置、连接验证及常见问题排查等方面详细说明,环境准备与检查在启……

    2025年9月28日
    6500
  • Linux如何给磁盘增加空间?

    在Linux系统中增加磁盘空间是常见的运维操作,主要涉及新增物理磁盘、扩展现有分区或调整分区布局等场景,操作前需注意备份数据,避免误操作导致数据丢失,以下是详细步骤和注意事项,准备工作:查看当前磁盘状态操作前需确认系统当前磁盘使用情况和分区结构,使用df -h查看文件系统使用率(-h以人类可读格式显示),lsb……

    2025年10月3日
    7000
  • Linux下如何通过TCP搜索指定端口进程?

    在Linux系统中,排查端口占用问题或定位特定端口对应的进程是日常运维和开发中的常见需求,当需要查找某个TCP端口被哪个进程占用时,可以通过多种命令实现,每种命令的适用场景和输出格式略有不同,本文将详细介绍这些方法及其使用技巧,使用netstat命令查找端口进程netstat是传统的网络状态查看工具,虽然在新版……

    2025年10月5日
    6100
  • 如何轻松制作跨平台Linux启动U盘?

    准备工作硬件需求容量≥8GB的U盘(建议USB 3.0,速度更快)备份U盘数据(制作过程会清空所有内容)软件工具Linux镜像文件:从官方渠道下载(如Ubuntu、Fedora)推荐Ubuntu LTS版(稳定)或Linux Mint(新手友好)启动盘制作工具:Windows:Rufus(轻量级开源工具)mac……

    2025年7月8日
    10200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-880-8834

在线咨询: QQ交谈

邮件:HI@E.KD.CN

关注微信