Como um negócio recuperou de uma falha RAID

As empresas, por vezes, armazenar seus dados em uma matriz redundante de baixo custo / arranjo de discos independentes, ou RAID, mas quando uma ou mais unidades falhar, ou a configuração do RAID for perdida, as empresas podem ser posta em risco.

Existem várias maneiras que um RAID podem ser configurados. Uma das maneiras mais básicas está em um arranjo RAID 1, em que dois discos são espelhados de tal forma que se uma unidade sofre uma falha, a outra unidade pode ser usado para restaurar os dados.

Outro arranjo é RAID 5, onde pelo menos três unidades são usadas. Nesta configuração, no entanto, de paridade ou de distribuição de dados a informação armazenada é utilizada para verificar o conteúdo, bem como para fornecer uma forma de restauração de dados. Estes dados listra é dividido ao longo de todas as unidades, de tal modo que a perda de uma única unidade significa que a informação em falta pode ser recuperado, mas à custa de menor espaço de armazenamento.

No caso do Uprising Beach Resort, que tinha seguido bastante boas práticas. Sua dados foram armazenados em um três-drive RAID 5 arranjo, eo sistema operacional (e, portanto, a configuração RAID 5) colocado em um acordo separado RAID 1 – um total de cinco unidades. Além disso, um sistema separado foi utilizado para backup de informações críticas.

No entanto, o desastre aconteceu o resort quando ambas as unidades na configuração RAID 1 fisicamente falharam simultaneamente, o que significa que, independentemente do estado dos RAID 5 unidades, já não era possível acessar os dados sobre ele, porque a configuração foi perdido.

O resort chamado Datec Fiji para ajudar a trazer o sistema operacional da configuração RAID 1 abatido de volta à vida apenas para ter acesso ao conjunto de dados RAID 5. Depois de ter sido incapaz de fazê-lo, Datec remeteu a questão para Kroll Ontrack para uma abordagem diferente para a reconstrução do conjunto RAID 5 sem as informações de configuração RAID 5. Durante este tempo, o resort foi incapaz de usar seus sistemas de TI para acompanhar o faturamento de itens para os hóspedes, check in e check out, e outros tais processos de TI essenciais, tornando o tempo de inatividade cada vez mais prejudicial e colocando aumento do estresse na equipe.

Além disso, embora o resort tinha sido o backup de seus dados, a falha para testar backups significava que ninguém tinha notado que para o mês passado, nenhum desses backups tinha ocorrido. Teria sido possível para o resort para inserir manualmente informação, mas o processo foi estimada em semanas.

Com o negócio do resort em risco, e correios simplesmente demasiado lento para o negócio de esperar, um de seus membros da equipe levou as unidades do arranjo RAID 5 e saltou em um vôo para Brisbane, onde eles foram fotografadas no laboratório de recuperação da Kroll Ontrack – um recentemente inaugurado; instalação especializada sala limpa.

Quando os discos foram fotografadas, os técnicos descobriram que um deles tinha vários setores defeituosos, complicando ainda mais tentativas de resolver a questão, mas dentro de duas horas, a empresa de recuperação foi capaz de confirmar que seria possível recuperar as informações usando uma combinação de intacta de dados e os dados de paridade.

Com o dia final, as equipes norte-americanas e europeias da Kroll Ontrack assumiu o processo de recuperação, trabalhando durante a noite nas imagens da unidade já tomadas pela equipe de Brisbane, agora não mais precisando de acesso directo ao hardware físico. Ao tomar em consideração a ordem das unidades instaladas no RAID 5, as equipes de resgate foram capazes de calcular onde os dados striping nos discos rígidos deveria ter sido.

dados críticos foi, posteriormente, enviados via FTP, e, devido à confirmação anterior de que os dados estariam prontos, o resort foi capaz de preparar o ambiente certo para começar a executar seus sistemas de TI novamente.

Enquanto a recuperação acabou sendo bastante simples para o resort uma vez Kroll Ontrack remendado o arranjo RAID 5 de volta juntos, sênior recuperação de dados engenheiro laboratório Tim Preto disse ao site que nem sempre é tão simples.

Ele disse que quando uma única unidade falhar, o aumento da quantidade de leituras e gravações cria carga de trabalho adicional nas unidades restantes.

Infelizmente, enquanto você tiver uma unidade para baixo, você está, na verdade, aumentando significativamente a probabilidade de que você vai ter uma falha no disco rígido secundário.

O caso acontece comumente o suficiente para que Black disse que uma falha de disco duplo de um arranjo RAID 5 é o cenário típico relacionados com o RAID que Kroll Ontrack vê.

Data Management; godan, alimentando o mundo com dados abertos; Big Data Analytics; DataRobot visa automatizar fruto maduro da ciência de dados; Nuvem; Conectado, era nuvem precisa de melhores redes; armazenamento; Facebook Open fontes ZStandard algoritmo de compressão de dados, visa substituir a tecnologia por trás Zip

Felizmente, nem tudo está sempre perdido em tal situação, mas a possibilidade de alcançar uma recuperação completa depende muitas vezes o que o cliente tem feito. Black disse que uma combinação de informações das unidades falharam e restantes unidades saudáveis ​​pode ser usado para montar uma imagem completa, mas as chances são maiores se as unidades estão ainda “fresco”.

Isto é porque uma vez que uma unidade falhar e não é mais parte do RAID, seus dados de paridade torna-se cada vez mais fora de sincronia com as outras unidades.

Se uma unidade falhar e, em seguida, uma semana depois, uma unidade secundária falhar, trazendo toda a RAID para baixo, que o primeiro falhou rígido, os dados sobre ele é de uma semana fora da validade ou fora de sincronia com o restante das unidades. Se nós temos que incorporar essa unidade, que pode levar ao processo de corrupção.

Como resultado, Black sugeriu que, se uma empresa se encontra em uma situação em que uma unidade falhou, talvez seja melhor fazer imediatamente o backup de dados críticos antes de prosseguir com a reconstrução da matriz, de forma a reduzir a pressão sobre as unidades restantes.

Fazendo-se uma pequena quantidade de dados vai ser menos intensivo sobre as unidades restantes do que o processo de reconstrução é, por isso é menos provável que eles vão ter uma falha durante esse processo. Segurança em primeiro lugar seria copiar fora de todos os bancos de dados críticos antes de reiniciar uma reconstrução.

Se, no entanto, uma segunda unidade falhar durante a reconstrução, Black disse que uma das piores coisas que um cliente pode fazer é tentar avançar.

Isso definitivamente faz com que esta pior, e em alguns casos irrecuperáveis, ou mal recuperável com muita corrupção.

Enquanto os comentários de negros são um bom conselho para qualquer RAID que tem uma falha na unidade, como o do website Robin Harris observou, nenhum fornecedor de armazenamento corporativo recomenda RAID 5 mais. Harris opinou em 2007 que, até 2009, RAID 5 seria obsoleto devido a unidades maiores aumentando as chances de que um array RAID não será capaz de ser reconstruir devido ao aumento da probabilidade de erros de leitura.

A solução que os fornecedores de armazenamento da empresa têm adotado é usar paridade distribuída dupla para permitir a falha de dois discos de uma vez, ou um arranjo RAID 6. A lei de Moore acabará por apanhar, no entanto, e Harris acredita que RAID 6 utilidade se tornará discutível em 2019.

Godan, alimentando o mundo com dados abertos

DataRobot visa automatizar fruto maduro da ciência de dados

Conectado, era nuvem precisa de melhores redes

Facebook Open fontes ZStandard algoritmo de compressão de dados, tem o objetivo de substituir a tecnologia por trás Zip