[Community-Discuss] Website outage report

AFRINIC Communication comms at afrinic.net
Fri May 29 14:13:23 UTC 2020



[French, Portuguese and Arabic versions below]

Dear Colleagues,

On May 28, AFRINIC experienced a partial service outage for its Web (http) service.

For clarity, AFRINIC hosts redundant infrastructure at two datacentres in Johannesburg, South Africa. These are fully redundant, and are meant to operate in concert with each other or as part of normal network operations. They can also operate independently. We were notified of scheduled emergency maintenace at one of these sites. Our team made an assessment of the risks involved, and concluded that this would be catered for within our resliency plan. The expected maintenace was meant to run from 18:00 to 22:00 UTC.

However, around 18:50 UTC, the NOC team started getting alerts that the Web service was unavailable. Working from these alarms, and with industry friends from various vantage points, we determined that there appeared to be a localised routing issue getting to services at one of the datacentres. Unfortuantely, this meant that our primary website - https://www.afrinic.net <https://www.afrinic.net/> - was unavailable during this time, depending on which location (datacentre) you were routed to. Full service availability was restored at 21:33:21 UTC.

Our website is usually the first port of call for people seeking information or clarification on any issue. So we recognise the seriousness of this outage, and are working hard to not just remedy the issue that caused this but also to improve our monitoring and visibility for these types of faults. Notably, from our testing, and reports that we received from the field, RPKI, DNS and WHOIS services were functional during the period of the Web service unavailability.

Over the next few weeks, we intend to implement additional service instances and checks that we believe will resolve any problems.

Meanwhile, we sincerely apologise for any inconvenience caused.

AFRINIC


…………………………………….

Chers collègues,

Le 28 mai, l'AFRINIC a connu une panne partielle de son service Web (http).

Pour plus de clarté, l'AFRINIC héberge une infrastructure redondante dans deux centres de données à Johannesburg, et en Afrique du Sud. Ces centres sont entièrement redondants et sont censés fonctionner de concert ou dans le cadre de l'exploitation normale du réseau. Ils peuvent également fonctionner de manière indépendante. Nous avons été informés de la maintenance d'urgence prévue sur l'un de ces sites. Notre équipe a procédé à une évaluation des risques encourus et en a conclu que notre plan de secours en tiendrait compte. La maintenance prévue devait se dérouler de 18h00 à 22h00 UTC.

Cependant, vers 18h50 UTC, l'équipe du NOC a commencé à recevoir des alertes indiquant que le service Web n'était pas disponible. En travaillant à partir de ces alertes, et avec des amis de l'industrie de différents secteurs, nous avons déterminé qu'il semblait y avoir un problème de routage localisé pour accéder aux services d'un des centres de données. Malheureusement, cela signifiait que notre site web principal - https://www.afrinic.net <https://www.afrinic.net/> - était indisponible pendant cette période, selon l'endroit (centre de données) vers lequel vous étiez dirigé. La disponibilité totale du service a été rétablie à 21:33:21 UTC.

Notre site web est généralement le premier point de contact pour les personnes qui cherchent des informations ou des éclaircissements sur un sujet quelconque. Nous sommes donc conscients de la gravité de cette panne et nous nous efforçons non seulement de remédier au problème qui en est à l'origine, mais aussi d'améliorer notre surveillance et notre visibilité pour ce type de défauts. Notamment, d'après nos tests et les rapports que nous avons reçus du terrain, les services RPKI, DNS et WHOIS étaient fonctionnels pendant la période d'indisponibilité du service Web.

Au cours des prochaines semaines, nous avons l'intention de mettre en œuvre des instances de service et des contrôles supplémentaires qui, selon nous, résoudront les problèmes éventuels.

En attendant, nous nous excusons sincèrement pour les désagréments causés.

AFRINIC


………………..


Em 28 de Maio, a AFRINIC sofreu uma interrupção parcial do seu serviço Web (http).

Para maior clareza, a AFRINIC acolhe infra-estruturas redundantes em dois centros de dados em Joanesburgo, na África do Sul. Estes são totalmente redundantes e destinam-se a funcionar em concertação entre si ou como parte de operações de rede normais. Podem também funcionar de forma independente. Fomos notificados de uma manutenção de emergência programada num desses locais. A nossa equipa procedeu a uma avaliação dos riscos envolvidos e concluiu que esta seria contemplada no âmbito do nosso plano de resiliência. A manutenção prevista deveria decorrer entre as 18:00 e as 22:00 UTC.

No entanto, por volta das 18:50 UTC, a equipa NOC começou a receber alertas de que o serviço Web não estava disponível. Trabalhando a partir destes alarmes, e com amigos da indústria de vários pontos de vista, determinámos que parecia haver um problema de encaminhamento localizado para chegar aos serviços num dos centros de dados. Infelizmente, isto significava que o nosso website principal - https://www.afrinic.net <https://www.afrinic.net/> - não estava disponível durante este tempo, dependendo da localização (datacenter) para onde era encaminhado. A disponibilidade total do serviço foi restaurada às 21:33:21 UTC.

O nosso website é normalmente o primeiro porto de escala para pessoas que procuram informações ou esclarecimentos sobre qualquer assunto. Por isso, reconhecemos a gravidade desta falha e estamos a trabalhar arduamente não só para resolver o problema que a causou, mas também para melhorar a nossa monitorização e visibilidade para este tipo de falhas. Nomeadamente, os nossos testes e relatórios que recebemos do terreno, RPKI, DNS e serviços WHOIS estiveram funcionais durante o período de indisponibilidade do serviço Web.

Ao longo das próximas semanas, pretendemos implementar instâncias de serviço adicionais e verificações que acreditamos irão resolver quaisquer problemas.

Entretanto, pedimos as nossas sinceras desculpas por qualquer inconveniente causado.

AFRINIC



………………………..


شهدت أفرينيك يوم 28 مايو انقطاع جزئي بخدمة الويب (http)

للتوضيح، تستضيف أفرينيك بنية تحتية احتياطية في مركزي تشغيل بجوهانسبيرغ، جنوب أفريقيا. تعتبر هذه المراكز احتياطيه للعمل معا بالتنسيق مع الخدمات الاساسية ، لكن يمكن ايضا تشغيلهم بشكل مستقل

تم ابلاغنا بإجراء صيانة الطوارئ بأحد المواقع، واجري فريق العمل تقييما للمخاطر المترتبة علي ذلك، . وخلُص إلى أنه سيتم تغطيه هذة الفترة ذلك من خلال خطة الاحتياطية الخاصة بتشغيل الخدمات. كان من المتوقع ان تتم اجراءات الصيانة في الفترة من 18:00 الي 22:00 بالتوقيت العالمي المنسق UTC

في حوالي الساعة 18:50 بالتوقيت العالمي المنسق، بدأ الفريق المسوؤل من التشغيل NOC باستلام تنبيهات بأن خدمة الويب غير متوفرة. من خلال العمل علي تحليل اسباب المشكلة والاستعانه بأصدقاء يمكنهم المساعده في الحل، وُجد انه توجد مشكلة فيعمليه التوجيه للوصول الي الخدمات بأحد مراكز التشغيل. للاسف أدي ذلك لعدم امكانية الوصول الي موقع أفرينيك الالكتروني https://www.afrinic.net <https://www.afrinic.net/> وذلك اعتمادا علي الموقع (مركز التشغيل) الذي يتم توجيهك اليه. تم حل المشكله وتوفر الخدمة بالكاملخلال الساعه 21:33:21 بالتوقيت العالمي المنسق UTC


نحن نعلم ان الموقع الالكتروني هو دائما الوجهه الاساسيه الأولى لمعظم الاشخاص لتحقق في حالة وجود مشكلة. لذلك نحن ندرك خطورة هذا الانقطاع، ونعمل جاهدين ليس فقط لمعالجة المشكلة التي تسببت في ذلك، ولكن أيضا لتحسين رصدنا ووضوح هذهالأنواع من الأخطاء. وتجدر الإشارة إلى أن خدمات RPKI وDNS وWHOIS من خلال اختباراتنا والتقارير التي تلقيناها من الميدان كانت تعمل خلال فترة عدم توفر خدمة الويب.

وعلى مدى الأسابيع القليلة القادمة، نعمل علي تنفيذ حالات خدمة إضافية وضوابط نعتقد أنها ستساعد عل حل هذه الحالات.

نحن نعتذر بصدق عن أي إزعاج حدث



…………………………...

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.afrinic.net/pipermail/community-discuss/attachments/20200529/ed9a712d/attachment.html>


More information about the Community-Discuss mailing list