22-11-2023 Risolto il bug dei bug in Meta
Novità
Meta
- Ho individuato e risolto la fonte di tutti i problemi di concorrenza nei dump RDF.
- L’errore era in Meta. Infatti, lanciando un’operazione in multiprocessing nei test di oc_ocdm non sono riuscito a riprodurlo.
- Oggetto condiviso tra tutti i processi che cambia una proprietà relativa al supplier prefix dinamicamente in ciascun processo. Isolando questo oggetto in ciascun processo il problema si è risolto.
- Aggiustare la provenance
- Problema fonte primaria
- Riguarda tutti i tipi di entità (ar, br, ra, re, id)
- Centinaia di milioni di entità non hanno uno snapshot 1
- Come recuperare la fonte primaria?
- Dai dump
- Se la br è in Crossref la fonte è Crossref, se è in DataCite e non in Crossref è DataCite, se è in PubMed e non in Crossref è DataCite è PubMed, se è in OpenAIRE e non in Crossref, DataCite e PubMed è OpenAIRE
- Come fare per le entità che non hanno un’id? Le si assegna la fonte primaria della br
- Dai dump
- Algoritmo
- Per tutti le br che non hanno uno snapshot 1
- Elimino tutti gli snapshot
- Creo uno snapshot 1
- Fonte primaria
- Ho un REDIS OMID-Source, creato a partire dai dump
- Recupero la fonte dal REDIS
- Fonte primaria
- Per tutti gli altri tipi di entità che non sono br che non hanno uno snapshot 1
- Faccio una query sparql per scoprire a quale br appartengono
- Assegno loro la fonte primaria della br, che recupero dalla provenance
- Per tutti le br che non hanno uno snapshot 1
- Problema fonte primaria
- Aggiustare i dati in RDF
- Download di Blazegraph in JSON-LD, così le triple sono già raggruppate per entità
Ho inviato la domanda di iscrizione a Leuven!
Domande
22-11-2023 Risolto il bug dei bug in Meta
https://arcangelo7.github.io/p/7288975d55d341c89d8844e4b7f456b6/