Bots de web scraping desafiam bases de dados científicas

Bots de web scraping estão causando lentidão e interrupções em bases científicas como DiscoverLife, levando editores a buscar soluções como bloqueio de IPs e colaboração tecnológica para proteger o acesso legítimo e evitar custos elevados.

Os bots de web scraping estão causando transtornos significativos nas bases de dados científicas e revistas acadêmicas. Com um aumento no tráfego automatizado, sites como DiscoverLife enfrentam lentidão e interrupções. Essa situação é agravada pela suspeita de que os bots coletam dados para treinar ferramentas de inteligência artificial generativa.

Impacto dos bots no acesso a dados científicos

Os bots de web scraping têm impactado significativamente o acesso a dados científicos, causando uma série de problemas para bases de dados e revistas acadêmicas.

O aumento do tráfego gerado por esses bots pode sobrecarregar servidores, levando a interrupções nos serviços e dificultando o acesso de usuários legítimos.

Um exemplo notável é o repositório de imagens online DiscoverLife, que registrou milhões de acessos diários, tornando o site quase inutilizável em certos momentos.

Esses bots, muitas vezes oriundos de endereços IP anônimos, podem estar coletando dados para treinar ferramentas de inteligência artificial, como chatbots e geradores de imagens.

Além disso, o aumento no uso de bots ‘ruins’ tem sido relatado por diversos editores acadêmicos. O BMJ, uma editora de revistas médicas, observou que o tráfego de bots em seus sites superou o dos usuários reais, sobrecarregando servidores e interrompendo serviços para clientes legítimos.

Esses problemas não são exclusivos de grandes editores. Organizações menores, com recursos limitados, enfrentam desafios ainda maiores para gerenciar o impacto dos bots, correndo o risco de extinção se não conseguirem mitigar essas interrupções.

Desafios e soluções para editores e pesquisadores

Os editores e pesquisadores enfrentam diversos desafios devido à proliferação de bots de web scraping. O principal problema é a sobrecarga dos servidores, que pode resultar em interrupções no serviço para usuários legítimos.

Além disso, o custo financeiro associado ao aumento do tráfego de bots é uma preocupação significativa para muitas organizações.

Para lidar com esses desafios, algumas soluções estão sendo implementadas. Muitos editores estão adotando medidas para bloquear o acesso de bots indesejados, como o uso de firewalls e a implementação de sistemas de validação de IP.

No entanto, essas soluções podem ser difíceis de aplicar, especialmente para organizações menores com recursos limitados.

Outra estratégia é a colaboração entre editores e plataformas tecnológicas para desenvolver ferramentas mais eficazes de identificação e bloqueio de bots.

Andrew Pitts, da PSI, destaca a importância de criar um repositório global de endereços IP validados para ajudar na identificação de tráfego legítimo.

Apesar dos desafios, há um consenso de que a cooperação entre a comunidade acadêmica e as empresas de tecnologia é essencial para encontrar soluções duradouras.

O compartilhamento de informações e a padronização de práticas de segurança podem ajudar a mitigar os impactos negativos dos bots de web scraping.

Fonte: Nature

Exit mobile version