יש שלושה שלבים מרכזיים בניהול של תקופת שיא או של אירועים עם נפח תעבורת נתונים גבוה בענן:
- הכנה: בשלב הזה מתכוננים לאירוע, עם משימות כמו בדיקת הארכיטקטורה, תכנון הקיבולת ויצירת מקומות שמורים.
- הרצה: כשהאירוע מתחיל, עוקבים אחריו מקרוב ופותרים בעיות כשצריך.
- בחינה: אחרי שהאירוע מסתיים, מנתחים מה הצליח ומה לא, ובודקים איך אפשר לשפר אירועים עתידיים.
חשוב להבין את השיטות המומלצות ולפעול לפיהן במהלך השלבים האלה, כדי שתוכלו לספק את השירותים שלכם עם זמן השבתה מינימלי או בלי זמן השבתה, ובלי פגיעה בביצועים או בחוויית המשתמש במהלך האירוע.
הכנה: תכנון האירוע לפרטי פרטים
כשאתם מתכוננים לקראת אירוע עם קיבולת שיא, כדאי שתיעזרו בצוות ניהול החשבון או במנהל החשבונות הטכני (TAM). יחד תוכלו לבדוק את הארכיטקטורה, ליצור דיאגרמות, ציר זמן ורשימות משימות להשקה, לבדוק אם המכסות בשירות מתאימות לפרופיל תעבורת הנתונים החזויה ולהסיק מה תהיה ההשפעה הכוללת על הפרויקטים שלכם.
כדאי להתחיל בתכנון האירוע הרבה לפני המועד. לפעמים צריך להתחיל לתכנן חודשים מראש, כשהשירות עדיין נמצא בפיתוח. כדאי להרכיב צוות שיעזור לכם לבדוק את תהליך העבודה שמוצע לאירוע, את הקהל הצפוי, את הדרישות והקריטריונים להצלחה ואת רשת העברת המדיה מקצה לקצה. שלב ההכנה צריך לכלול הערכת סיכונים, תכנון של פעולות לצמצום סיכונים ובדיקת מוּכנוּת (readiness) תפעולית, כדי לוודא שתהליך העבודה מתוכנן היטב.
למידע נוסף אפשר לעיין ב-Google Cloud Architecture Framework, שמציע המלצות לאדריכלים, למפתחים, לאדמינים ולגורמים אחרים בתחום הענן איך לתכנן ולהפעיל טופולוגיה מאובטחת, יעילה, עמידה, בעלת ביצועים גבוהים וחסכונית בענן.
הרצה: מעקב אחרי התפקוד ומענה בהתאם
כשתקופת השיא או אירוע ההשקה מתחילים, אתם צריכים להיות עם יד על הדופק כדי שתוכלו להגיב לפי הצורך. אחרי שמגדירים בשלב ההכנה מעקב, התראות ורישום ביומן, אפשר לעקוב אחרי תעבורת הנתונים שחיונית לעסק, יומנים ורמות מכסות, ולהשתמש במידע הזה כדי לזהות את שורשי הבעיות ולפתור אותן במהירות. כדי לקרוא עוד, ראו בדיקה של ההתראות ומרכזי הבקרה.
אם יהיה לכם נוהל מפורט לניהול אירועי אבטחה והעברה לטיפול ברמה גבוהה יותר, ייקח לכם פחות זמן ופחות מאמץ כדי לטפל בכל בעיה שתצוץ. אם עדיין לא עשיתם את זה, כדאי ליצור תהליך לניהול אירועי אבטחה. מידע נוסף מופיע במאמר הכנה לפתרון בעיות במהלך האירוע.
בחינה: ניתוח האירוע והסקת מסקנות
בסיום תקופת השיא או אירוע ההשקה, נתחו את מה שקרה והכינו מסמך עם מסקנות, כדי שתוכלו ליישם אותן באירוע הגדול הבא.
כדאי להתמקד בתחומים הבאים:
סיכום של ציר הזמן: הבחנה מתי תעבורת הנתונים התחילה לעלות ומתי קרו האירועים המרכזיים (השיאים) במהלך תקופת האירוע. זיהוי מתי הופיעו בעיות, אם היו כאלה.
ניתוח שורש הבעיה: בדיקת בעיות שהתרחשו. האם אתם או Google Cloud יכולתם לעשות משהו אחרת? האם בפעם הבאה כדאי לעשות משהו אחר? אתם יכולים לתעד את המסקנות ואת השלבים הנדרשים לשיפור בעתיד.
השוואה בין התחזיות לבין מה שקרה בפועל: ניתוח התחזית של תעבורת הנתונים החזויה לעומת תעבורת הנתונים שתועדה בפועל. איפה היה צריך משאבים נוספים? איפה המשאבים לא נוצלו במלואם או היו לא נחוצים?
ניתוח רטרוספקטיבי: שיתוף ובחינת המידע שהופיע קודם עם בעלי תפקידים מרכזיים. כדאי לקדם תרבות ללא האשמות, שבה מניחים שלכל מי שהיה מעורב היו כוונות טובות, ולהתמקד בזיהוי הגורמים שהובילו לבעיות בלי להצביע על אדם או צוות מסוימים.