06-06-2023 Dump POCI

Novità

Meta

  • Ho aggiunto un nuovo parametro al software che genera il dump in CSV, ovvero una lista di schemi di identificatori da considerare nella generazione del dump. È servito per velocizzare la generazione del dump in CSV di POCI.

Articolo JWS

  • Ho aggiunto ColChain ai related works
  • Ho scritto lo pseudocodice degli algoritmi di query sulle versioni e sui delta
  • Registro il tempo per ingerire ogni versione. C’è un cache che permette di ripartire dall’ultima versione non processata.
  • La provenance viene salvata su un db a parte per misurare l’impatto sul disco
  • Risolto un bug in rdflib_ocdm per cui commit_changes generava lo snapshot di creazione per le entità assenti nel contatore della provenance anziché limitarsi a resettare il preexisting graph
  • Risolto un altro bug per cui la funzione per incrementare il contatore su sqllite encodava l’url che funge da chiave due volte

Workshop Open Science (1)

Domande

  • Strategie per velocizzare l’ingestione di dbpedia?
  • BEAR
    • Loro fanno le query sulle versioni numerate, noi sul tempo.
      • Dobbiamo bloccare il tempo per ogni versione, in maniera tale da associare il tempo a una specifica versione
    • Diff query
      • Noi facciamo la query su una versione e diciamo in che modo le entità che rispondono alla query sono cambiate in quel delta
      • Loro forniscono i diversi risultati per la query tra le versioni 1 e n
    • Version query
      • È praticamente una cross-version
      • Loro forniscono i risultati annotati con le versioni in cui quei risultati ci sono

06-06-2023 Dump POCI
https://arcangelo7.github.io/p/aa4351d1cb53466bacb97c141a3256fa/
Author
Arcangelo Massari
Posted on
June 5, 2023
Licensed under