יותר ויותר ארגונים מוצאים את עצמם במצב שהדמיון הפך למציאות – הבעיה הפכה למשבר. חוסר יכולת להנגיש שירות התומך בתהליכי הליבה של הביזנס ללקוחות הארגון הוא מצב בו הארגון סופג משמעותית, אובדן רווחי החברה, אובדן לקוחות והתעצמות התחרות.
במצבי קיצון אלו ארגון ה-IT חייב לנוע מהר על מנת להבין מה השתבש, ולהחזיר את השירות לפעולה תקינה, אבל הדבר לא פשוט. צוות ה IT צריך לחפש "מחט בערמת שחת" – לנבור באלפי התרעות ואירועים שמתקבלים ממערכות ניטור שונות, להבין את הקשר בין ההתרעות השונות, לבנות קורולציה ידנית בין שררת האירועים ולהבין את ההשפעה על הביזנס של כל אחד מהכשלים מהרכיבים את האירוע. לארגון לוקח, שעות, ימים ולפעמים שבועות של חקירה על מנת להבין על איזה שרתים, רכיבים ומערכות מרכיבות את השירות העסקי שנפגע, ומהו בדיוק שורש הבעיה.
זאת המציאות איתה מתמודדים עוד ועוד מנהלי IT – כשלי IT ותקלות משביתות הפוגעים באופן מהותי בליבת העסקים של הארגון ורמת השרות, SLA.
ניהול IT הפך להיות משימה הרבה יותר מורכבת ומאתגרת, כתוצאה מהרבה גורמים, ביניהם:
אימוץ גישה מבוססת AI-Ops מאפשר זיהוי וטיפול בבעיות IT בשלבים מוקדמים, טיפול מהיר בכשלים ורציפות עסקית תוך שמירה על חווית הביזנס וזמינות השרות
המונח AIOps פשוטו כמשמעו, שימוש ב- AI ולמידת מכונה על דפוסי התנהגות לייעול תפעול ה-IT.
AIOps מהווה מודל חדש לניהול IT OPERATIONS ומאפשר התמודדות יעילה עם כמויות גדולות של נתונים מגוונים המגיעים ממערכות שונות בארגון, כולל: התרעות, אירועים, לוגים ומטריקות.
מטרת AIOps היא לזהות ולגלות באופן יזום בעיות פוטנציאליות ולטפל בהם ע"י אוטומציות למשל לפני שמשתמשים מתלוננים, וכמו כן לפתור בעיות IT באופן יעיל ומהיר, על מנת להפחית Downtime ולמקסם שביעות רצון הלקוחות ומשתמשים של הארגון. הפלטפורמה מסננת את כל האירועים המיותרים ומציגה על קונסול אחיד רק את הנושאים הקריטיים שמשפיעים על השירותים החיוניים של הארגון.
המרכיבים העיקריים של פלטפורמה מבוססת AIOps לשיפור תפעול ה-IT
Observability – תהליך AI-Ops נשען על יכולות צפייה והתבוננות על נתונים והתנהגות נתונים המגיעים ממקורות רבים: מסביבות וירטואליות, מעננים, מקונטיינרים, מסביבות on-prem, וכו. מקורות המידע יכולים להגיע ממערכות ניטור חיצוניות ו/או מהפטלפורמה עצמה. חשוב שהפלטפורמה תוכל לאסוף מידע גם כ Manager of Managers וגם באופן עצמי, גם בתצורת Agentless ואם יש צורך, עם איג'נטיים ייעודיים.
Breaking Down Big Data Silos – אחד העקרונות של AIOps הוא אגרגציה של כמויות גדולות של נתונים ממקורות שונים ע"י פירוק Data Silos והיכולות לבצע אגרגציה חכמה בין המקורות על ידי מיפויים ואנליטיקה מתקדמת, וכל זאת על מנת לאפשר ניתוח מהיר יותר ולהגיע לשורש בעיות, וביצוע אוטומציות.
למידת מכונה – שימוש בטכנולוגיית Machine Learning היא הדרך האופטימילית להתמודד עם כמויות גדולות של מידעים שמגיעים ממערכות ניטור מגוונים, כדי לגלות קורלציות ומגמות על המידע באופן המהיר והמדוייק ביותר, בהתבסס על מידע real-time ומידע היסטורי. חלק מהאלגוריתמים בלמידת מכונה בפלטפורמת AIOps הם:
Data selection – היכולת לעבור ולנתח כמויות עצומות של מידע על בסיס הגדרות ומטרקיות
Pattern discovery – חיפוש קורלציות במידע ויצירת קבוצות לניתוח
Inference – ניתוח מעמיק על מנת להגיע לשורש הבעיות ומגמות על מנת לייצר המלצות לפעולה
Visibility – הארגון לא יכול לשפר ולבצע אוטומציות על מה שאתה לא יודע. התהליך הראשון הקריטי ב AIOps הוא היכולת לראות ולהבין מה יש לארגון:
ממשק אחוד – המציג את תמונת המצב של תשתית ה IT בראייה של "בריאות" התהליכים העסקיים הקריטיים של הארגון.
אוטומציה – בסופו של דבר, פלטפורמת ה AIOps אמורה לאפשר ביצוע אוטומציות שיאפשרו לצוות ה IT להגיב ולנהל את האירוע בקבועי זמן קצרים עם מינימום טעויות אנוש.
חטיבת הDigital Workflows בקבוצת ה CloudHome מיישמת פתרונות IT כמו AIOps בחברות המובילות בישראל ובגופי ממשלה על בסיס פלטפורמה ServiceNow.