18-12-2023 Merge delle entità duplicate
La Novitade
Le entità da fondere sono circa 1/6 di quelle che pensavamo
La query era sbagliata
1
2
3
4
5
6
7
8
9PREFIX datacite: <http://purl.org/spar/datacite/>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX literal: <http://www.essepuntato.it/2010/06/literalreification/>
PREFIX prism: <http://prismstandard.org/namespaces/basic/2.0/>
SELECT ?r1 ?r2 {
?id_1 literal:hasLiteralValue ?s ; ^datacite:hasIdentifier ?r1 .
?id_2 literal:hasLiteralValue ?s ; ^datacite:hasIdentifier ?r2 .
FILTER(?r1 != ?r2)
}Questa query non tiene conto dello schema, quindi un crossref id si ritrova identico a un pmid
Nuova query
1
2
3
4
5
6PREFIX datacite: http://purl.org/spar/datacite/
PREFIX literal: http://www.essepuntato.it/2010/06/literalreification/
SELECT ?entity1 ?entity2 {
?id ^datacite:hasIdentifier ?entity1, ?entity2.
FILTER(?entity1 != ?entity2 )
}Risultato: 1,002,200 entità anziché 5,929,604
- 753,336 br
- 248,864 ra
Ho modificato il software che trova e salva in un csv le entità da fondere in modo che nel CSV ci siano due colonne: surviving_entity, merged_entities
1
2
3surviving_entity,merged_entities
https://w3id.org/oc/meta/br/06904044877,https://w3id.org/oc/meta/br/061601850
https://w3id.org/oc/meta/br/06350147790,https://w3id.org/oc/meta/br/0603903711; https://w3id.org/oc/meta/br/0603903969; https://w3id.org/oc/meta/br/0603904973; https://w3id.org/oc/meta/br/062103689974; https://w3id.org/oc/meta/br/062203701946; https://w3id.org/oc/meta/br/062303713402; https://w3id.org/oc/meta/br/062403720758; https://w3id.org/oc/meta/br/062503701865; https://w3id.org/oc/meta/br/061046331Ho modificato lo script per fondere le entità in modo che sia possibile specificare una lista di classi (ra, br) da fondere.
Domande
- Come resp agent delle fusioni ho messo sempre https://w3id.org/oc/meta/prov/pa/1, va bene?
18-12-2023 Merge delle entità duplicate
https://arcangelo7.github.io/p/70620856feab419c93cc95ab9c8b5cf9/