Bots de web scraping estão causando lentidão e interrupções em bases científicas como DiscoverLife, levando editores a buscar soluções como bloqueio de IPs e colaboração tecnológica para proteger o acesso legítimo e evitar custos elevados.
Os bots de web scraping estão causando transtornos significativos nas bases de dados científicas e revistas acadêmicas. Com um aumento no tráfego automatizado, sites como DiscoverLife enfrentam lentidão e interrupções. Essa situação é agravada pela suspeita de que os bots coletam dados para treinar ferramentas de inteligência artificial generativa.
Impacto dos bots no acesso a dados científicos
Os bots de web scraping têm impactado significativamente o acesso a dados científicos, causando uma série de problemas para bases de dados e revistas acadêmicas.
O aumento do tráfego gerado por esses bots pode sobrecarregar servidores, levando a interrupções nos serviços e dificultando o acesso de usuários legítimos.
Um exemplo notável é o repositório de imagens online DiscoverLife, que registrou milhões de acessos diários, tornando o site quase inutilizável em certos momentos.
Esses bots, muitas vezes oriundos de endereços IP anônimos, podem estar coletando dados para treinar ferramentas de inteligência artificial, como chatbots e geradores de imagens.
Além disso, o aumento no uso de bots ‘ruins’ tem sido relatado por diversos editores acadêmicos. O BMJ, uma editora de revistas médicas, observou que o tráfego de bots em seus sites superou o dos usuários reais, sobrecarregando servidores e interrompendo serviços para clientes legítimos.
Esses problemas não são exclusivos de grandes editores. Organizações menores, com recursos limitados, enfrentam desafios ainda maiores para gerenciar o impacto dos bots, correndo o risco de extinção se não conseguirem mitigar essas interrupções.
Desafios e soluções para editores e pesquisadores
Os editores e pesquisadores enfrentam diversos desafios devido à proliferação de bots de web scraping. O principal problema é a sobrecarga dos servidores, que pode resultar em interrupções no serviço para usuários legítimos.
Além disso, o custo financeiro associado ao aumento do tráfego de bots é uma preocupação significativa para muitas organizações.
Para lidar com esses desafios, algumas soluções estão sendo implementadas. Muitos editores estão adotando medidas para bloquear o acesso de bots indesejados, como o uso de firewalls e a implementação de sistemas de validação de IP.
No entanto, essas soluções podem ser difíceis de aplicar, especialmente para organizações menores com recursos limitados.
Outra estratégia é a colaboração entre editores e plataformas tecnológicas para desenvolver ferramentas mais eficazes de identificação e bloqueio de bots.
Andrew Pitts, da PSI, destaca a importância de criar um repositório global de endereços IP validados para ajudar na identificação de tráfego legítimo.
Apesar dos desafios, há um consenso de que a cooperação entre a comunidade acadêmica e as empresas de tecnologia é essencial para encontrar soluções duradouras.
O compartilhamento de informações e a padronização de práticas de segurança podem ajudar a mitigar os impactos negativos dos bots de web scraping.
Fonte: Nature
