25-10-2022 OpenCitations Meta

Novità

  • OC Meta ha processato 67,975 file su 70,785 e impiega 18 ore per processarne 3000. Fate voi i conti.

    • Ci sono stati 0 errori e 0 entità conflittuali stando ai log.
    • Allo stato attuale, che ormai approssima quello definitivo, i dati hanno il seguente peso:
      • Totale: 619,5 GB (140 GB compresso)
      • Triplestore: 536,4 GB
      • CSV: 34,6 GB
      • RDF (file individualmente zippati): 27,6 GB. Non ho idea di quanto possano pesare unzippati, ma si parla di TB
      • indici temporanei (si possono eliminare) e file di log: 18,5 GB
      • info dir: 2,3 GB
  • Ho aggiunto una nuova regola ai campi minimi da specificare. Se una risorsa specifica il volume o il numero, il tipo di risorsa deve essere indicato. Ci sono tre possibilità: o è un articolo, o è un volume o è un numero. Se il tipo è ignoto, non è possibile capire a quale risorsa associare l’id, se al contenuto o al contenitore. Questa è la tabella dei campi obbligatori aggiornata:

    Untitled

    • Ho aggiornato la documentazione dei CSV presente su opencitations/metadata con la nuova regola
    • Questa regola viene violata 8 volte nel dump di Crossref. Ho corretto i documenti interessati a mano.
  • Ho finalizzato il codice per aggiungere il fuso orario alla provenance di COCI.

    • Ho aggiunto dei test
    • Il codice si lancia da linea di comando
    • È sul mio repo personale di Github
    • Mi sono permesso di modificare la convenzione dei nomi dei file di provenance. Includevano i due punti, ad esempio “2019-10-21T22:41:20_1.csv”. Tuttavia, i due punti sono un carattere riservato su filesystem NTFS (non su ext).
      • Ho applicato ai nomi dei file la stessa convenzione già usata per i nomi degli archivi, sostituendo i due punti con trattino basso e usando come separatore del numero sequenziale il trattino, ad esempio “2019-10-21T22_41_20-1.csv”
    • I nuovi dati di provenance si trovano su oc-ficlit nelle directory /srv/meta/coci_prov_csv_tz e /srv/meta/coci_prov_nquads
  • Ho aggiornato i materiali della seconda lezione di laboratorio

    • Invece di usare a e b come variabili, ho introdotto una narrativa basata sui pianeti per spiegare i vari concetti
    • Ho aggiunto alcune immagini eplicative per il tasto tab e le convenzioni sui nomi
    • Ho aggiunto un riferimento a PEP 8 per quanto riguarda le convenzioni sui nomi
  • Ho completato il capitolo sullo stato dell’arte dell’articolo su OC Meta. Credo di avere un feticismo per le tabelle

    Untitled

Domande

  • Devo aggiungere il fuso orario anche alla provenance di CCC e OCC?
  • Aggiungere il fuso orario all’ultimo dump di COCI significa aggiungerlo a tutti i dump, perché, l’ultimo dump li comprende tutti. Ora bisogna modificare tutti gli upload aggiungendo, per ciascuna versione, solo gli archivi pertinenti. È un’operazione tediosa, se volete la faccio io.
  • Bisogna modificare il codice che genera i nuovi dump perché aggiunga il fuso orario. Basta modificare oc_ocdm o c’è da toccare altro?
  • Che differenza c’è tra NIH e PMC-OA?

Rubrica cose da pazzi


25-10-2022 OpenCitations Meta
https://arcangelo7.github.io/p/eed4d2809ba847b7a207325fbeb68942/
Author
Arcangelo Massari
Posted on
October 24, 2022
Licensed under