日常巡检argo系统(文档+脚本)

heqi 2周前
105次浏览 0人关注 复制链接 所属标签: 问题排查 巡检 常见问题 置顶

这个帖子主要帮忙用户先检查常见问题,节约排查问题的时间;

目前暂时先放文档步骤,后续有时间放自动检查脚本;

=================================分割线=================================

Argo系统简单巡检检查流程。

以下是详细步骤,主要是一些配置的检查;更快捷的办法是直接检查入数和查数两端,比如一开始就检查数据消费和实时数据,然后一步步向前检查;入数如果没有问题就检查查数,查数主要看界面查询问题还是底层数据本身有问题;

1.     host检查

这部分是部署时需要确定的,如果后期服务器重启或者其他操作作了修改,依然需要按照要求改回来;

[root@ark1 ~]# hostname -f

ark1.analysys.xyz

[root@ark1 ~]# cat /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.1.100 ark1.analysys.xyz ark1

 

2.     检查数据盘配置

数据盘的配置和挂载都需要正常,断电重启或者一些云主机重置操作可能会还原配置

[root@ark1 ~]# cat /etc/fstab |grep -v "#"|grep data1

LABEL=data1             /data1     ext4    defaults,noatime,nodiratime        0 0

[root@ark1 ~]# df -h|grep data1

/dev/vdb        493G   18G  450G   4% /data1

 

3.     检查mysql数据库服务

ambari管理界面依赖mysql,需要先启动mysql服务

[root@ark1 ~]# /etc/init.d/analysys-mysqld status

MySQL running (13768)                                      [  OK  ]

[root@ark1 ~]# netstat -lntp|grep 3306

tcp6       0      0 :::3306                 :::*                    LISTEN      13768/mysqld   

 

4.     检查ambari serverambari agent

然后接下来检查ambari状态

[root@ark1 ~]# /etc/init.d/ambari-server status

Using python  /usr/bin/python

Ambari-server status

Ambari Server running

Found Ambari Server PID: 4431 at: /var/run/ambari-server/ambari-server.pid

[root@ark1 ~]# netstat -lntp|grep 8080

tcp        0      0 0.0.0.0:8080            0.0.0.0:*               LISTEN      4431/java          

[root@ark1 ~]# /etc/init.d/ambari-agent status

Found ambari-agent PID: 25645

ambari-agent running.

Agent PID at: /run/ambari-agent/ambari-agent.pid

Agent out at: /var/log/ambari-agent/ambari-agent.out

Agent log at: /var/log/ambari-agent/ambari-agent.log

 

5.     检查系统可用空间

注意数据盘的预留空间和其他分区是否有足够空间,不然程序会有问题;

[root@ark1 ~]# df -h

Filesystem      Size  Used Avail Use% Mounted on

/dev/vda1       197G   40G  148G  21% /

devtmpfs        7.5G     0  7.5G   0% /dev

tmpfs           7.6G   28K  7.6G   1% /dev/shm

tmpfs           7.6G   39M  7.5G   1% /run

tmpfs           7.6G     0  7.6G   0% /sys/fs/cgroup

/dev/vdb        493G   18G  450G   4% /data1

tmpfs           1.6G     0  1.6G   0% /run/user/0

/dev/loop0      4.3G  4.3G     0 100% /opt/soft/analysys_installer/ambari/centos/centos7

tmpfs           1.6G     0  1.6G   0% /run/user/1000

 

6.      ambari界面检查服务

主要看服务是否有异常告警

如果服务有问题,按照文档启动服务:https://ark.analysys.cn/forum/topic/110

7.     检查流

流如果没有启动,会导致数据不消费,看不到数据更新;

命令行检查

[root@ark1 ~]# su - streaming

Last login: Mon Apr 20 20:14:49 CST 2020

[streaming@ark1 ~]$ stream_schedule_find_task.sh

======================================================================================================================================================================

|   appkey  event   0       已启动         ark1.analysys.xyz        tail -300f /opt/soft/log/ark-streaming/ appkey /event0stream.log

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

|   appkey  profile         0       已启动         ark1.analysys.xyz        tail -300f /opt/soft/log/ark-streaming/ appkey /profile0stream.log

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

======================================================================================================================================================================

appkeyList["appkey "]

======================================================================================================================================================================

stopappkey

waittingappkey

runningappkey: appkey

界面检查

如果前面所有步骤都没有问题,流却无法启动,就需要看流的错误日志了,日志位置:(appkey换成实际的)

        /opt/soft/log/ark-streaming/appkey/

      错误日志文件名称类似:

        profile0streaming.error.log event0streaming.error.log

8.    实时数据查询





1条回答
朱楠@Argo运营 2周前

谢谢何老师!

有用0 评论0