O CERN é um dos empreendimentos científicos e de engenharia mais ambiciosos da história da humanidade. O Grande Colisor de Hádrons (LHC) é o maior e mais energético acelerador de partículas do mundo, e os cientistas o utilizam para analisar evidências da estrutura do mundo subatômico – no processo, o LHC é capaz de produzir dezenas de petabytes de dados todos os anos.
O CERN teve recentemente de actualizar os seus sistemas de TI backend em preparação para a nova fase experimental do LHC (Operação 3 do LHC). A expectativa é que até o final de 2025 esta fase gere 1 PB de dados todos os dias. Os sistemas de banco de dados anteriores não são mais adequados para lidar com os dados de “alta cardinalidade” produzidos pelos principais experimentos do colisor, como o CMS.
O Compact Muon Solenoid (CMS) é um detector universal no Large Hadron Collider com um amplo programa de física. Inclui o estudo do Modelo Padrão, incluindo o bóson de Higgs, e a busca por dimensões extras e partículas que possam constituir a matéria escura. O CERN considera a experiência uma das maiores colaborações científicas da história, com a participação de cerca de 5.500 pessoas de 241 instituições em 54 países diferentes.
O CMS e outros experimentos do Large Hadron Collider passaram por uma grande fase de atualização de 2018 a 2022 e agora estão prontos para retomar a colisão de partículas subatômicas durante o período de três anos de coleta de dados da Fase Operacional 3. Durante o encerramento, os especialistas do CERN também fizeram atualizações significativas nos sistemas de detecção e na infraestrutura de computação que suportam o CMS.
Brij Kishor Jashal, cientista que trabalha com CMS, mencionou que sua equipe coletou 30 TB de dados em 30 dias para monitorar o desempenho da infraestrutura. Ele explicou que esta etapa de operação resulta em maior luminosidade, resultando em um aumento significativo no volume de dados. Os sistemas de monitoramento de back-end anteriores dependiam do banco de dados de série temporal de código aberto (TSDB) InfluxDB e do banco de dados de monitoramento Prometheus, que utilizava algoritmos de compactação para processar esses dados com eficiência.
No entanto, o InfluxDB e o Prometheus encontraram problemas de desempenho, escalabilidade e confiabilidade, especialmente ao lidar com dados de alta cardinalidade. Alta cardinalidade refere-se à prevalência de valores duplicados e à capacidade de reimplantar o aplicativo várias vezes em novas instâncias. Para enfrentar esses desafios, a equipe de monitoramento do CMS optou por substituir o InfluxDB e o Prometheus pelo banco de dados VictoriaMetrics TSDB.
Agora, VictoriaMetrics é o sistema de armazenamento e monitoramento de back-end do CMS, resolvendo efetivamente o problema de cardinalidade encontrado anteriormente. Jashal observou que a equipe CMS está atualmente satisfeita com o desempenho do cluster e dos serviços. Embora ainda haja espaço para escalabilidade, esses serviços estão sendo executados em “modo de alta disponibilidade” no cluster Kubernetes dedicado do CMS para fornecer maiores garantias de confiabilidade. O data center do CERN depende de serviços OpenStack, que são executados em um cluster de máquinas x86 robustas.
acesso:
Alibaba Cloud – Vouchers universais de até 1.888 yuans disponíveis imediatamente