
Em julho deste ano, o GBIF.org lançou uma primeira versão de um algoritmo de agrupamento de dados que identifica registos potencialmente relacionados, ao combinar entradas semelhantes em campos individuais em diferentes conjuntos de dados. Este recurso experimental pode melhorar a qualidade dos dados detetando duplicatas em potencial, revelando tipos de espécimes relacionados e expondo ligações entre registos de diferentes fontes, como coleções de história natural, sequências derivadas de DNA e materiais examinados em tratamentos taxonómicos.
O serviço está disponível sempre que uma guia 'agrupamento' aparecer em um registo de ocorrência individual, e é provavelmente, mais eficaz quando aplicado a espécimes preservados, fósseis e vivos. Inicialmente identificou-se 7,8 milhões de ocorrências agrupadas de um total de 190 milhões de registos de espécimes.
Embora esse recurso experimental continue sujeito a alterações e limitado aos primeiros 100 registos, a API GBIF agora fornece acesso a esse conteúdo (veja o exemplo). Os publicadores de dados podem começar a colher informações sobre essas relações e expô-los por meio de seus próprios portais de dados. Melhorias futuras podem permitir que a rede GBIF partilhe tais informações em sistemas de gestão de coleções ou outros objetos de dados digitais.
As próximas etapas envolvem refinamentos do algoritmo, a inclusão de asserções de relações como anotações em downloads e a exploração de como melhor expor essas relações por meio da funcionalidade de pesquisa.
"O primeiro lançamento de agrupamento de dados nos dá uma base para construirmos com nossos utilizadores e editores de dados", disse Tim Robertson, chefe de informática do Secretariado do GBIF. "Agradecemos o feedback da comunidade para refinar o desenvolvimento futuro e explorar serviços adicionais que estendem a utilidade deste recurso, alertando os editores sobre possíveis erros e espécimes relacionados.”
Mais detalhes sobre este recurso podem ser explorados na matéria completa.