12-03-2024 Align data with triplestore
Novità
Meta
Script per allineare l’RDF al triplestore
- Bisogna prima scaricare l’RDF dal triplestore
- Tipologie di errori
- File json assente
- Se file presente, entità assente
- Se entità presente, tripla assente
- Genera un log dei problemi trovati, dicendo sia quali file/entità ne sono affetti sia il numero di casi trovati per tipologia di errore
- Test su dati completi e perfetti by design: nessun log generato
- Test su dati attuali di Meta
- Correzioni
- Se data presente senza datatype e se anno e mese coincidono, aggiungi il datatype
1
2
3
4
5{
"date_datatype_missing": 2214359,
"subject_not_found": 55912,
"missing_triple": 4957
}- Problemi
- Spiegazione
- Entità assenti
- BR fuse a cui sul triplestore è rimasta solo la data di pubblicazione, probabilmente perché Blazegraph ha alterato il datatype, rendendo inefficace la query di update
- Triple mancanti
- Differenza nel datatype delle date
- Ho testato oc_ocdm e il datatype della data viene registrato correttamente nell’RDF. Il datatype viene ricavato automaticamente da oc_ocdm a partire dalla data in formato ISO. Date senza datatype, in teoria, non dovrebbero mai essercene nell’RDF. Com’è possibile che ce ne siano?
- Infatti, altre entità hanno il datatype per le date
- Ho lanciato Meta in multiprocessing che un input di test e i datatype delle date sono stati registrati correttamente nell’RDF
https://github.com/opencitations/oc_meta/issues/21
- Differenza nel datatype delle date
- Entità assenti
12-03-2024 Align data with triplestore
https://arcangelo7.github.io/p/873d7a5f95e044a9bc4569703501c4fb/