
Última atualização: 14 de fevereiro de 2025. Esta página será atualizada à medida que as alterações são detectadas nos dados do CDC.
Nas semanas desde que o presidente Trump assumiu o cargo, os Centros de Controle e Prevenção de Doenças removeram pelo menos 135 conjuntos de dados e outros arquivos de sua plataforma de dados públicos, data.cdc.gov, mostra uma análise de estatísticas. As remoções parecem fazer parte de um esforço para eliminar a linguagem que foi considerada censurável ao governo Trump.
Como Trump criticou severamente as autoridades de saúde pública durante sua campanha, o STAT antecipado que pode haver mudanças nos sites federais de saúde. Quando os rumores começaram a girar perto do final de janeiro de que os sites federais seriam derrubados inteiramente se ainda não tivessem cumprido totalmente as ordens executivas de Trump, baixamos e arquivamos todos os arquivos disponíveis do data.cdc.gov. Estamos disponibilizando esses arquivos; Por favor, veja advertências abaixo. (Para um arquivo das páginas da Web do CDC, em vez de dados, o ACASIGNUPS.NET tem um arquivo útil.)
A análise de STAT dos dados excluídos desde a inauguração mostra a palavra “gênero” chamou atenção especial. Isso não é especialmente surpreendente, pois muitos conjuntos de dados de saúde pública capturam dados sobre gênero e, até agora, muitos conjuntos de dados tendiam a usar os termos “gênero” e “sexo” de maneira intercambiável. A Ordem Executiva de Trump sobre “Ideologia de Gênero” proíbe especificamente todas as agências federais de usar a palavra “gênero” em vez de “sexo”. Identifiquei pelo menos 67 itens que parecem ter sido removidos especificamente porque eles contêm a palavra “gênero”, independentemente do contexto em que ela foi usada.
Outros itens parecem ter entrado em conflito com outras palavras e conceitos sinalizados. Exemplos notáveis incluem conjuntos de dados relacionados ao sistema de vigilância de comportamento de risco para jovens (YRBSs) e ao sistema de vigilância de fatores de risco comportamental (BRFSS), que capturam dados sobre tópicos agora sensíveis, como identidade de gênero e orientação sexual.
Curiosamente, as páginas da Web para esses dois conjuntos de dados foram republicadas no site principal do CDC após uma ordem judicial. No entanto, esses conjuntos de dados ainda não foram republicados ao data.cdc.gov.
Monitorando a purga
O STAT começou o monitoramento regular e em tempo real da plataforma de dados do CDC em 31 de janeiro. O registro confiável mais recente dos arquivos disponíveis antes do início do nosso monitoramento é de 25 de novembro de 2024. Nesse ponto, havia um total de 1.488 itens disponíveis disponíveis para baixar. Entre então e 31 de janeiro, um total de 133 itens parece ter sido removido enquanto 34 novos itens foram adicionados. Desses 133 itens, pelo menos 72 estavam programados para serem removidos porque eram um tipo desatualizado de visualização de dados que não era mais compatível com o software que alimenta a plataforma de dados do CDC.
Isso significa que 61 dos itens que desapareceram não estavam programados para serem removidos, e todos eles incluíram tipos de dados semelhantes aos que foram removidos como parte da purga atual. Além disso, ao fazer backup de todos os arquivos de dados do CDC (mais sobre isso abaixo), pude observar que 51 desses itens ainda estavam disponíveis ao público a partir de 29 de janeiro, o que significa que eles devem ter sido removidos entre então e 31 de janeiro.. Os outros 10 são tipos de ativos que não teriam sido capturados no backup do STAT. Esses 61 itens estão incluídos na contagem de dados ausentes e censurados da STAT.
Desde o início do nosso monitoramento regular, mais 74 itens desapareceram. Isso eleva o total para 135 remoções.
Vários conjuntos de dados que foram removidos acabaram sendo reiniciados com modificações. Um bom exemplo de um conjunto de dados que foi reundido com modificações é Dados de mortalidade por doenças cardíacas entre adultos dos EUA (35+) por estado/território e município-2018-2020.
Há uma coluna neste conjunto de dados chamado StratificationCategory1
cujo conteúdo tinha sido o termo gender
. Em 10 de fevereiro, quando foi adicionado de volta ao site do CDC 59.095 instâncias do termo gender
foi substituído pelo termo sex
. Aqui está uma versão resumida deste conjunto de dados, ilustrando essas alterações:
Outro exemplo é um conjunto de dados chamado Doença de Alzheimer e dados de envelhecimento da saúde. Este é um conjunto de dados contendo 284.142 linhas. Originalmente, três colunas RowId
Assim, StratificationCategory2
e StratificationCategoryID2
continham instâncias do termo gender
. Quando o conjunto de dados foi republicado em 14 de fevereiro, 68.838 linhas foram alteradas para substituir todas as instâncias de gender
com sex
. Outro exemplo resumido:
Isso é extremamente típico dos tipos de mudanças que já vi – conjuntos de dados inteiros derrubados e republicados apenas para mudar uma palavra.
Fazemos backup de data.cdc.gov
Na mesma época, o STAT começou a monitorar as alterações no site e na plataforma de dados do CDC, o Stat iniciou um esforço para baixar e arquivar todos os arquivos disponíveis do data.cdc.gov.
Abaixo está uma tabela que você pode usar para baixar cópias originais de todos os conjuntos de dados que foram removidos do site do CDC. Alguns dos 135 itens excluídos foram visualizações de dados ou infográficos vinculados a outros conjuntos de dados criados usando a plataforma de dados do CDC. Estes não são arquivos, por si só, que podem ser baixados. É por isso que a tabela abaixo inclui menos itens. É minha crença, no entanto, que todos os dados subjacentes desses itens são capturados no backup da STAT.
Pule direto para os dados
Algumas advertências sobre o uso desses dados
Os arquivos de backup da STAT foram capturados entre 29 de janeiro e 31 de janeiro, e eles refletem os dados como foram publicados no site do CDC na época. Como observado acima, alguns arquivos foram reiniciados para o site do CDC. Os arquivos no backup do STAT podem estar desatualizados em comparação com o que está disponível no CDC. A menos que você tenha uma preocupação específica com a censura, se os dados desejados estiverem disponíveis no data.cdc.gov, você deve obtê -lo a partir daí.
Existem algumas maneiras de interagir com a plataforma de dados do CDC, principalmente por meio de seu site ou programaticamente por meio de uma API. No decorrer de nosso monitoramento, houve pequenas discrepâncias no número de itens disponíveis entre as duas opções. Provavelmente, isso significa apenas que esses sistemas não estão perfeitamente sincronizados. Decidimos tratar a API como a principal fonte de verdade para os fins desta análise. Isso pode resultar em pequenas discrepâncias entre a contabilidade da STAT e outros esforços de arquivo.
Roteiro
Este é um trabalho em andamento e será atualizado à medida que a situação se desenvolve. Também pretendo expandir a funcionalidade e a utilidade desta página. Algumas coisas que espero ter disponíveis em breve estão:
- Publique diferenças completas de todos os conjuntos de dados que foram republicados pelo CDC
- Publique toda a coleção de arquivos de backup
- Adicione melhor funcionalidade de pesquisa para ajudar na descoberta de arquivos
- Adicione mais metadados às listagens de arquivos (ou seja, descrições, publicar e último horário atualizado, etc.)
Se você achar que alguma coisa está faltando ou se você tiver uma solicitação ou precisar de qualquer assistência, entre em contato.
Se você estiver interessado em obter um arquivo completo de dados do CDC, recomendo o uso desta coleção, que foi enviada ao arquivo da Internet. Esta coleção parece ser equivalente ao arquivo de Stat. A maneira mais conveniente de baixar toda a coleção é usando um cliente BitTorrent. Você precisará de cerca de 112 GB de espaço livre disponível. O arquivo torrent está localizado aqui.