Не так давно IBM выпустила новую версию Cloud Pak for Watson AIOps 3.1.1 - комплекс по мониторингу инфраструктуры с мощными встроенными возможностями по аналитике данных (Data analysis) включая автоматическое выявление потенциально проблемных точек. Основные функции по отношению к инфраструктуре
- Управление событиями - event management,
- Диагностика инцидентов - incident diagnosis,
- Решение инцидентов - incident resolution,
- Определение сущностей - entity extraction,
- Workflow и инструменты представления инфраструктуры и инцидентов - insight delivery
Но в данной статье рассмотрим архитектуру и требования для решения.
Арихитектура состоит из множества отдельных компонент, базирующихся на контейнерах OpenShift версий 4.6 и 4.7 на RedHat
IBM Cloud Pak for Watson AIOps ориентирована на большие инфраструктуры, где она в том числе экономически оправдана. Так в "маленькой" топологии согласно документации может использоваться 200 тысяч объектов для мониторинга и 5 миллионов в Large конфигурации
Category
|
Resource
|
Small
|
Large
|
System size |
Approximate resources |
200,000 |
5,000,000 |
А количество KPI - key performance indicators - метрик которые требуют мониторинга до поллумиллиона в модуле Metric Manager :
Deployment size
|
KPIs
|
Nodes
|
Resource
|
CPU (Cores per node)
|
Memory (GB)
|
Disk (GB)
|
Trial/Proof of concept (POC) |
60,000 |
1 |
Server 1 (Analytics, Database, UI) |
8 |
36 |
200 |
Small |
100,000 |
2 |
Server 1 (Analytics)
Server 2 (Database, UI) |
10
4 |
43
20 |
400
250 |
Medium |
250,000 |
3 |
Server 1 (Analytics)
Server 2 (Database)
Server 3 (UI) |
20
6
4 |
77
38
8 |
700
300
250 |
Large |
500,000 |
3 |
Server 1 (Analytics)
Server 2 (Database)
Server 3 (UI) |
24
8
4 |
147
54
8 |
1200
450
250 |
Общие требования по вычислительным мощностям можно сравнить со small business инфраструктурами
Category
|
Resource
|
Small
|
Large
|
Overall environment
Resource count |
Node count (master and compute)
vCPU
Memory (GB)
CoreOS root disk(GB)
Persistent storage (Gi) |
6
75
216
720
1,549 |
11
188
432
1320
2,642 |
Но при тестах и планировании можно обойтись и более щадящими решениями установив только сервисную часть (без доп. агентов)
Category
|
Resource
|
Small
|
Large
|
OpenShift control plane master resources per node |
Node count
vCPU
Memory (GB)
Disk (GB) |
3
4
16
120 |
3
4
16
120 |
По этому для тестов в песочнице такие серьезные инструменты как IBM Cloud Pak for Watson AIOps требуют осознанного выбора и достаточности ресурсов - как бы отрезка малых и средних инфраструктур, которым IBM Cloud Pak for Watson AIOps вообще не нужен.
К слову следует отметить, что производительность обработки с учетом
has a large number of Kubernetes operators that interface with the API server and etcd storage, and so master nodes must be appropriately sized.
оправдывает системные требования сопоставимые с инфраструктурами целых бизнесов:
Category
|
Resource
|
Small
|
Large
|
Event rate throughput |
Steady state events per second
Burst rate events per second |
20
100 |
50
500 |
Подробнее в документации
А за консультацией, лицензированием, внедрением - к нам