11-01-2023 ExportKB dà problemi
Novità
Software che salva i dati di Meta in JSON-LD rispettando la struttura di cartelle e sottocartelle a partire da un dump in JSON-LD di Blazegraph
- Blazegraph salva tutto in un unico file
- ison per processare le entità in streaming
- Batch di 10000 entità
- I batch vengono assegnati a processi paralleli
- Lock sui file
- Prima di essere processate, le entità vengono raggruppate per file, in modo che, per ogni batch, il file venga aperto una volta sola
Il metodo integrato in Blazegraph per scaricare il triplestore in formato testuale non scala bene con triplestore di grandi dimensioni, perché prova a mettere tutto il triplestore in memoria prima di scaricarlo, dopodiché lo scarica su un unico file
Di conseguenza, ho implementato uno script che usa un OFFSET per scaricare in maniera incrementale tutte le entità del triplestore, in maniera similare a come ho fatto per visualizzare tutte le entità nell’interfaccia che sto facendo per il dottorato
Provenance
- Ho creato il Redis OMID-SOURCE a partire dal dump di Crossref di dicembre, Datacite, PubMed, OpenAIRE
11-01-2023 ExportKB dà problemi
https://arcangelo7.github.io/p/079d3f0a2fb54897aa5c0da1d6b97aca/