25-10-2022 OpenCitations Meta
Novità
OC Meta ha processato 67,975 file su 70,785 e impiega 18 ore per processarne 3000. Fate voi i conti.
- Ci sono stati 0 errori e 0 entità conflittuali stando ai log.
- Allo stato attuale, che ormai approssima quello definitivo, i dati hanno il seguente peso:
- Totale: 619,5 GB (140 GB compresso)
- Triplestore: 536,4 GB
- CSV: 34,6 GB
- RDF (file individualmente zippati): 27,6 GB. Non ho idea di quanto possano pesare unzippati, ma si parla di TB
- indici temporanei (si possono eliminare) e file di log: 18,5 GB
- info dir: 2,3 GB
Ho aggiunto una nuova regola ai campi minimi da specificare. Se una risorsa specifica il volume o il numero, il tipo di risorsa deve essere indicato. Ci sono tre possibilità: o è un articolo, o è un volume o è un numero. Se il tipo è ignoto, non è possibile capire a quale risorsa associare l’id, se al contenuto o al contenitore. Questa è la tabella dei campi obbligatori aggiornata:
- Ho aggiornato la documentazione dei CSV presente su opencitations/metadata con la nuova regola
- Questa regola viene violata 8 volte nel dump di Crossref. Ho corretto i documenti interessati a mano.
Ho finalizzato il codice per aggiungere il fuso orario alla provenance di COCI.
- Ho aggiunto dei test
- Il codice si lancia da linea di comando
- È sul mio repo personale di Github
- Mi sono permesso di modificare la convenzione dei nomi dei file di provenance. Includevano i due punti, ad esempio “2019-10-21T22:41:20_1.csv”. Tuttavia, i due punti sono un carattere riservato su filesystem NTFS (non su ext).
- Ho applicato ai nomi dei file la stessa convenzione già usata per i nomi degli archivi, sostituendo i due punti con trattino basso e usando come separatore del numero sequenziale il trattino, ad esempio “2019-10-21T22_41_20-1.csv”
- I nuovi dati di provenance si trovano su oc-ficlit nelle directory
/srv/meta/coci_prov_csv_tz
e/srv/meta/coci_prov_nquads
Ho aggiornato i materiali della seconda lezione di laboratorio
- Invece di usare a e b come variabili, ho introdotto una narrativa basata sui pianeti per spiegare i vari concetti
- Ho aggiunto alcune immagini eplicative per il tasto tab e le convenzioni sui nomi
- Ho aggiunto un riferimento a PEP 8 per quanto riguarda le convenzioni sui nomi
Ho completato il capitolo sullo stato dell’arte dell’articolo su OC Meta. Credo di avere un feticismo per le tabelle
Domande
- Devo aggiungere il fuso orario anche alla provenance di CCC e OCC?
- Aggiungere il fuso orario all’ultimo dump di COCI significa aggiungerlo a tutti i dump, perché, l’ultimo dump li comprende tutti. Ora bisogna modificare tutti gli upload aggiungendo, per ciascuna versione, solo gli archivi pertinenti. È un’operazione tediosa, se volete la faccio io.
- Bisogna modificare il codice che genera i nuovi dump perché aggiunga il fuso orario. Basta modificare oc_ocdm o c’è da toccare altro?
- Che differenza c’è tra NIH e PMC-OA?
Rubrica cose da pazzi
- https://doi.org/10.20546/ijcmas.2016.501.002
- A parte i marquee, il link all’issue è javascript:history.go(-1)
- Rivista indiana, la review viene fatta solo dal board editoriale entro 2 settimane
- APC di 4000 Rupie (50$), ma se sei straniero paghi 100$
- 10.18782/2320-7051.2109 si commenta da solo
- Sempre indiano
25-10-2022 OpenCitations Meta
https://arcangelo7.github.io/p/eed4d2809ba847b7a207325fbeb68942/