TR AD UZ IO N E Recupero della classificazione decimale Dewey da altre basi di dati: un progetto di bonifica del catalogo Stefano Bargioni, Michele Caputo, Alberto Gambardella, Luigi Gentile 1 Introduzione La Biblioteca della Pontificia Università della Santa Croce1 è una biblioteca di ricerca appartenente alla Rete URBE – Unione Romana Biblioteche Ecclesiastiche.2 Attualmente essa possiede circa 167.000 volumi corrispondenti a 145.000 record bibliografici catalogati in formato MARC21. Per la gestione della biblioteca si sono succedu- ti tre Integrated Library System (ILS): Aleph 300, Amicus 3.5.4 e l’attuale Koha3 3.2.7. Contemporaneamente all’adozione dell’ILS open source Koha dall’elevata produttività, sono stati introdotti gli authority records. La duttilità di Koha ha permesso inoltre di aprire nuovi percorsi di sperimentazione operativa ordinariamente non realizzabili con un ILS commerciale. Al fine di fornire all’utenza maggiori strumenti di ricerca cata- lografica in chiave semantica e tenendo presente che l’attività di 1http://www.pusc.it/bib. 2http://www.urbe.it. 3http://koha-community.org. Traduzione italiana a cura dell’Autore. http://www.pusc.it/bib http://www.urbe.it http://koha-community.org TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey soggettazione basata sul Nuovo Soggettario Thesaurus della Biblio- teca nazionale centrale di Firenze è recente, si è deciso di sviluppare le potenzialità legate alla classificazione Dewey,4 già parzialmente adottata in biblioteca da una decina di anni ed assegnata a circa il 25% dei documenti posseduti. Si è sviluppata così l’ipotesi di incrementare, attraverso l’im- portazione da altre basi di dati,5 la presenza della classificazione Dewey nei record bibliografici, utilizzando il codice ISBN6 come chiave per il recupero delle classificazioni mancanti. Si è proceduto inizialmente all’individuazione di fonti (basi di dati) che soddisfa- cessero significativamente le nostre esigenze, sia dal punto di vista qualitativo che quantitativo. L’esperienza della catalogazione deri- vata – un punto di forza di Koha – è stata fondamentale al riguardo. Una volta scelte le potenziali fonti, sia nazionali che internazionali, sono stati individuati i metodi per potervi accedere programmati- camente. La difformità con cui le varie istituzioni pubblicano i loro dati ha comportato la necessità di diversificare i metodi di interro- gazione per poter accedere sistematicamente all’informazione. Si va dal caso più moderno della OCLC, che ha dato vita a Classify,7 un web service sperimentale specifico per la classificazione, ai casi meno semplici in cui si deve ricorrere alle pagine HTML. Per poter 4http://dewey.info. 5L’importazione di dati da altre fonti bibliografiche si giustifica attraverso il ”prin- cipio di condivisione” sentito e vissuto praticamente da sempre dai cataloghi pubblici. Questo principio fonda lo scambio di informazione tramite OPAC, Z39.50, interfacce web, ecc., ed ha come scopo anche il confronto e il controllo reciproco delle regi- strazioni e della identificazione della biblioteca fonte dell’informazione, assicurata, per esempio, in MARC21 dal campo 035. L’utilizzo delle importazione è avvenu- to nel rispetto delle eventuali condizioni o raccomandazioni indicate nelle pagine web dei siti interrogati. Diverso potrebbe essere il caso di un utilizzo commerciale dell’informazione recuperata. 6http://www.isbn.org/standards/home/index.asp. 7http://classify.oclc.org. http://dewey.info http://www.isbn.org/standards/home/index.asp http://classify.oclc.org TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) controllare la qualità delle classificazioni Dewey ottenute, è stato creato un apposito algoritmo descritto nel paragrafo ”Il controllo di qualità”. Il processo di ricerca e importazione dei dati andava anche analizzato sotto il profilo del carico che rappresenta sia per il sistema alla fonte sia per quello di destinazione. Le interrogazioni dei server non possono avvenire ad un ritmo eccessivo, e per questo alcuni di essi pubblicano espressamente raccomandazioni agli eventuali software, chiamati crawler o web robots, che li interrogano. 2 Individuazione dei record da modificare I record del catalogo da arricchire sono quelli dotati di ISBN (tag 020) ma mancanti di classificazione Dewey (tag 082). La loro individua- zione può avvenire in Koha mediante una query SQL (v. listato 1), specifica del database MySQL, applicata al campo marcxml8 della tabella biblioitems9 Listing 1: Query per la selezione dei record in Koha. SELECT biblionumber, listaISBN FROM biblioitems WHERE isbn_presente AND dewey_assente AND lingua_008=’...’ Non trattandosi di una ricerca tramite indici, l’individuazione av- viene mediante l’analisi record per record del database. In questo caso dunque si è di fronte a un aspetto del progetto dipendente dalla 8Il campo biblioitems.marcxml contiene la rappresentazione del record biblio- grafico nel formato MARCXML, http://www.loc.gov/standards/marcxml/, http: //en.wikipedia.org/wiki/MARC_standards#MARCXML. 9Gli elementi principali della query sono descritti in tabella 9 a pagina 19. http://www.loc.gov/standards/marcxml/ http://en.wikipedia.org/wiki/MARC_standards#MARCXML http://en.wikipedia.org/wiki/MARC_standards#MARCXML TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey potenza di calcolo del server su cui risiede l’ILS. Altri ILS permette- ranno di reperire il numero di sistema e l’ISBN di un record senza classificazione Dewey in modi molto diversi da Koha, in funzione della struttura dati utilizzata per conservare i dati bibliografici e degli strumenti a disposizione per accedervi. 3 Le fonti Gli ISBN di ogni record, estratti dalla query, sono stati utilizzati per interrogare sette diverse basi di dati. Le fonti scelte sono elencate nella Tabella 1 nell’ordine temporale di interrogazione. Siccome lo scopo del lavoro era essenzialmente pratico, non si è cercato di interrogare ogni fonte con lo stesso ISBN. Nel caso in cui venisse reperita e salvata nel record una classificazione Dewey, si è deciso che quella fonte avrebbe prevalso sulle successive, così che il record non sarebbe stato ulteriormente processato. Questa modalità ci è parsa più economica rispetto alle altre due possibili: interrogare tutte le fonti con lo stesso ISBN, o simultaneamente o in successione. Inoltre in diversi casi la ricerca è stata limitata alla lingua prevalente della fonte interrogata, sia per evitare un eccessivo numero di ricerche, sia perché ritenuta più attendibile. Tra le lingue 1 Classify Classify di OCLC 2 LC Library of Congress 3 BNF Bibliothèque nationale de France 4 DNB Deutsche Nationalbibliothek 5 BNCF Biblioteca Nazionale Centrale di Firenze 6 BNCR Biblioteca Nazionale Centrale di Roma 7 BNB British National Bibliography Tabella 1: Fonti di classificazione Dewey interrogate. TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) presenti in catalogo, lo spagnolo non è stato trattato, in mancanza di basi di dati da noi ritenute sufficientemente significative allo scopo. Il metodo adottato non consente di effettuare confronti tra le diverse fonti a parità di condizioni, ma permette pur sempre un’analisi statistica dell’uso della classificazione Dewey nelle diverse fonti, come si vedrà in seguito. La Tabella rappresentata in figura 1 mostra l’indirizzo, il tipo di dato restituito, il tipo di servizio contattato per ogni fonte e la lingua interessata: Le fonti di tipo diverso da quelle web forniscono gli Figura 1: Caratteristiche delle fonti di classificazione Dewey interrogate. estremi della connessione nelle rispettive pagine di spiegazione del servizio. Per le fonti di tipo web, invece, connessione e interrogazio- ne vanno quasi sempre dedotte empiricamente, in genere a partire dalla schermata di interrogazione avanzata del catalogo. Per poter individuare i parametri da inviare, compreso quello dell’ISBN, si può procedere in uno dei modi elencati in Appendice. Sempre nel caso di pagine web, la tecnica adottata per l’estrazio- ne del dato è particolarmente specifica. Si deve applicare quello che TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey comunemente viene denominato web scraping,10 screen scraping o in generale data scraping. Occorre in sostanza capire se si dispone di un metodo per indivi- duare ed estrarre il dato di interesse dall’interno del codice HTML ottenuto, operazione che gli altri tipi di risposte rendono più facile e standard visto che forniscono dati strutturati. Il Web 2.0 e ancor più l’incalzante web dei linked data fanno auspicare che le fonti di dati offrano non solo interfacce web, essenzialmente destinate alla fruizione dell’uomo, ma soprattutto interfacce con risposte standard strutturate, fruibili da altre macchine e stabili nel tempo. La logica utilizzata nei programmi di interrogazione delle fonti dati è riconducibile all’algoritmo rappresentato in figura 2. Figura 2: Rappresentazione della logica utilizzata nei programmi di interrogazione delle fonti dati. Fa eccezione il caso di Classify, come detto, per il quale il passo di ”interrogazione della fonte dati per l’ISBN corrente” deve essere seguito da istruzioni specifiche (figura 3.). Figura 3: Rappresentazione dell’eccezione alla logica utilizzata nei program- mi di interrogazione delle fonti dati da Classify. 10http://en.wikipedia.org/wiki/Web_scraping. http://en.wikipedia.org/wiki/Web_scraping TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) Il paragrafo 3 dell’Appendice riporta esempi per ognuno dei tre tipi di dati ottenuti come risposta: XML, MARC e HTML. La risposta di Classify11 è tipicamente di quattro tipi, come da tabella 2. Response code Significato 2 ISBN corrispondente a una singola opera 4 ISBN corrispondente a più opere 101 ISBN errato 102 ISBN non trovato Tabella 2: Tipi di risposte di Classify. Nel caso di risposta di ”ISBN corrispondente a più opere”, Clas- sify12 fornisce un elenco di identificatori OCLC# delle relative ope- re. È stata preferita la prima di queste, andando a reperire il re- cord descrittivo tramite il suo OCLC# con un’altra interrogazio- ne del tipo: http://classify.oclc.org/classify2/Classify?summary= false&swid=OCLC#, che ovviamente ha response code 2, singola opera. La risposta di Classify per singola opera (se ne veda un esem- pio al paragrafo 1 dell’Appendice) riporta sia le aggregazioni delle classificazioni Dewey e LCC assegnate all’opera dai numerosi catalo- ghi che contribuiscono a OCLC, sia un elenco di edizioni, corredate dalla classificazione. È parso preferibile importare la classificazione 11Le API di Classify sono descritte in http://classify.oclc.org/classify2/api_docs/ index.html e possono essere provate tramite il Classify API Explorer alla pagina http://classify.oclc.org/classify2/api_docs/classify.html. 12Le aggregazioni in Classify avvengono per applicazione di FRBR. Alla pa- gina http://www.oclc.org/research/activities/classify.html (al 21.1.2013) si affer- ma: ”Bibliographic records are grouped using the OCLC FRBR Work-Set algorithm to form a work-level summary of the class numbers and subject headings assigned to a work. You can retrieve a summary by ISBN, ISSN, UPC, OCLC number, author/title, or subject heading”. http://classify.oclc.org/classify2/Classify?summary=false&swid=OCLC# http://classify.oclc.org/classify2/Classify?summary=false&swid=OCLC# http://classify.oclc.org/classify2/api_docs/index.html http://classify.oclc.org/classify2/api_docs/index.html http://classify.oclc.org/classify2/api_docs/classify.html http://www.oclc.org/research/activities/classify.html http://www.oclc.org/research/activities/frbralgorithm.html TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey della prima edizione in elenco, perché rispetto alle altre era spesso più completa. Le fonti Z39.50 richiedono sostanzialmente di estrarre il valore del tag della classificazione Dewey, secondo le regole del relativo formato MARC, come da Tabella 4. sottocampo sottocampoo Formato MARC tag del codice dell’edizione MARC21 082 a 2 InterMARC o UNIMARC 676 a v Tabella 3: Tag della classificazione Dewey in alcuni dialetti MARC. 4 Il ”controllo di qualità” Prima del progetto, il catalogo era popolato da classificazioni Dewey riferentesi alle edizioni dalla 19 alla 23. La scelta di non introdurre né classificazioni di tipo ridotto né classificazioni di edizioni Dewey inferiori alla 19 ha implicato di dover rinunciare a numerose clas- sificazioni trovate, come riportato nelle statistiche della tabella 7 a pagina 14. È parso opportuno privilegiare la qualità alla quantità per ottenere un arricchimento più possibile allineato alla politica di catalogazione. In concreto, oltre a limitare l’edizione alla 19 o superiori, sono state scartate classificazioni con indicatori 1 e 2 di- versi dal ”0 0” e ”0 4”.13 Sono state eliminate anche le classificazioni contenenti caratteri non numerici o mancanti di edizione. Infine le classificazioni sono state normalizzate prima di essere inserite nel record. 13Secondo il MARC21, il primo indicatore del campo 082 con valore ”0” indica uso dell’edizione completa della Dewey, il secondo indicatore con valore ”0” indi- ca Dewey assegnata dalla Library of Congress mentre il valore ”4” corrisponde a notazione assegnata da una agenzia diversa dalla Library of Congress. TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) 5 Il tag 035 Contestualmente alla modifica del record, è parso opportuno tenere traccia degli estremi del record da cui è stata tratta la classificazione Dewey importata, tramite l’utilizzo del tag 035 del MARC21, come nel seguente esempio: Listing 2: Esempio di utilizzo del tag 035 di MARC21. 00872nam a2200265 i 4500 001 000000035650 003 IT-RoPUS 005 20121121122621.0 008 041027r19851982xxk u000 u eng c 020 $a 0198247761 035 $a (OCoLC)007946090 040 $a IT-RoPUS $b ita 082 04 $a 111.85 $2 19 100 1 $a Savile, Anthony. $9 70779 245 14 $a The test of time : $b an essay in philosophical aesthetics / $c Anthony Savile. ... Nel caso di fonte non MARC21 o comunque senza MARC Organiza- tion Code,14 è stato scelto di assegnare un codice più logico possibile, come da Tabella 4 nella pagina seguente. L’ID è stato estratto dal record in posizioni diverse caso per caso. Per le fonti Z39.50 si trova nel tag 001, mentre per la Library of Con- gress si ricorre al tag 010. Anche Classify lo riporta espressamente nel record XML, mentre il reperimento dai record in formato HTML è particolarmente complesso. 14http://www.loc.gov/marc/organizations/. http://www.loc.gov/marc/organizations/ TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey Tabella 4: Codici istituzione per lo 035. 1 Classify di OCLC OCoLC ufficiale 2 Library of Congress DLC ufficiale 3 Bibliothèque nationale de France FR-PaBFM ufficiale 4 Deutsche Nationalbibliothek DE-101 ufficialea 5 Biblioteca Nazionale Centrale di Firenze BNCF non ufficiale 6 Biblioteca Nazionale Centrale di Roma BNCR non ufficiale 7 British National Bibliography BNB non ufficiale a http://dispatch.opac.d-nb.de/DB=1.2/LNG=EN. Questa scelta consente di collegare il record bibliografico a quello di un catalogo esterno, utile per costruire un link di interesse sia a livello di OPAC (figura 4 a pagina 12) che di linked data. Il link nell’OPAC viene costruito, per ogni occorrenza del tag 035, sulla base dei link della tabella 5 a fronte. La permanenza di alcuni è certa (permalink). Negli altri casi, il link, di natura molto più instabile, può essere costruito ricorrendo alla vista di ogni singolo record offerta dal catalogo. 6 Attese durante la ricerca sulle fonti Come accennato nell’Introduzione, un uso continuo, facilmente ot- tenibile con interrogazioni automatizzate, può gravare sul server interrogato. La lettura di pagine web di tipo ”Terms and Conditions” permette di regolare le condizioni di utilizzo delle fonti. Ad esempio, la Library of Congress richiede esplicitamente15 che i crawler utiliz- zino il server Z39.50 con un ritmo inferiore alle 10 interrogazioni al minuto. Il server Z39.50 della Bibliothèque nationale de France chiu- de il collegamento dopo la decima interrogazione. Il programma 15http://lccn.loc.gov/lccnperm-faq.html#n12. http://dispatch.opac.d-nb.de/DB=1.2/LNG=EN http://lccn.loc.gov/lccnperm-faq.html#n12 TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) Tabella 5: Costruzione di link nell’OPAC a partire da un’occorrenza di tag 035. Classify di OCLC - World- Cat http://www.worldcat.org/search?q=no%3AID permalinka Library of Congress http://lccn.loc.gov/ID permalinkb Bibliothèque nationale de France http://catalogue.bnf.fr/servlet/biblio ?idNoeud=1&SN1=0&SN2=0&host=catalogue& ID=ID Deutsche Nationalbiblio- thek http://d-nb.info/ID permalinkc Biblioteca Nazionale Cen- trale di Firenze http://opac.bncf.firenze.sbn.it/opac/ controller.jsp? action=notizia_view¬izia_idn=ID Biblioteca Nazionale Cen- trale di Roma http://193.206.215.17/BVE/ricercaEsperta. php?dove=esperta &cerca=Avvia+la+ricerca& textexpert=di%3DID British National Bibliogra- phy http://search.bl.uk/primo_library/libweb /action/search.do?vid=BLBNB&fn =search&vl%28freeText0%29=ID a http://www.oclc.org/worldcatorg/linking/how.htm#oclc-number. b http://lccn.loc.gov/lccnperm-faq.html. c Dedotto dalla visualizzazione di un singolo record al termine di una ricerca qualunque. http://www.oclc.org/worldcatorg/linking/how.htm#oclc-number http://lccn.loc.gov/lccnperm-faq.html TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey Figura 4: Vista di record nell’OPAC, arricchito con Dewey e link prelevati da DNB. deve pertanto riaprirlo con la stessa frequenza. Il sito della Bibliote- ca nazionale centrale di Firenze non si presta ad essere consultato senza pause, dato che sembra sovraccaricarsi quasi subito. È anche opportuno verificare, per le fonti interrogate tramite pro- tocollo http, se vi sono indicazioni ai crawler nel file /robots.txt, dove a volte si trovano restrizioni anche per la frequenza di acces- so.16 Pertanto per tutte le fonti sono state definite attese dai 4 ai 6 secondi tra le interrogazioni. Le pause hanno permesso anche di non sovraccaricare il nostro catalogo. Infatti ad ogni modifica di record, il motore di indicizzazione Zebra17 usato da Koha e il motore di 16http://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_ directive. 17http://www.indexdata.dk/zebra. http://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive http://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive http://www.indexdata.dk/zebra TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) 1 numero di sistema ISBN ISBN non trovato 2 numero di sistema ISBN ISBN errato 3 numero di sistema ISBN ISBN relativo a più opere 4 numero di sistema ISBN Dewey non trovata 5 numero di sistema ISBN Classificazione ed edizione trovate Non soddisfacenti 6 numero di sistema ISBN Classificazione ed edizione trovate Record modificato Tabella 6: Tipi di record di log. Il tipo 2 e 3 sono relativi solo a Classify. ricerca per liste sviluppato in proprio,18 intervengono per aggiornare i propri indici e possono rallentare la consultazione dell’OPAC e il lavoro ordinario. Un aspetto da valutare in funzione della potenza di calcolo a disposizione. Il ritmo imposto dalle pause suddette di fatto prolunga il processo di importazione per ore se non per giorni, in funzione del numero di ISBN da elaborare. Questo può comportare degli adattamenti del programma, per esempio parametrizzandolo affinché lavori solo in certe fasce orarie. 7 Log Il processo di importazione è stato monitorato al fine di raccogliere statistiche sul lavoro svolto. Sono stati registrati i tipi di record di log descritti nella tabella 6. 18Koha non dispone al momento di ricerche a scorrimento di indici, note an- che come ricerche browse. È stato possibile aggiungere questa funzionalità al- la nostra installazione di Koha tramite un applicativo basato su Solr (http:// lucene.apache.org/solr) e sviluppato dalla nostra biblioteca. Questo browse è stato presentato all’incontro internazionale di utenti Koha tenutosi ad Edimbur- go a giugno 2012 (http://wiki.koha-community.org/wiki/KohaCon12_Schedule# Adding_browse_to_Koha_using_Solr_.2815-20_min.29) e verrà integrato in succes- sive versioni di Koha, in particolare quando Solr sarà in alternativa a Zebra o lo sostituirà. http://lucene.apache.org/solr http://lucene.apache.org/solr http://wiki.koha-community.org/wiki/KohaCon12_Schedule#Adding_browse_to_Koha_using_Solr_.2815-20_min.29 http://wiki.koha-community.org/wiki/KohaCon12_Schedule#Adding_browse_to_Koha_using_Solr_.2815-20_min.29 TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey 8 Statistiche I log generati permettono di costruire le seguenti tabelle e confronta- re le diverse fonti sotto alcuni aspetti. Record Record ISBN non Dewey non Dewey Più opere per ISBN Fonte Lingua esaminati modificati trovati trovate scartate stesso ISBN errato Classify tutte 42387 10267 5321 6607 20059 8240 133 LC tutte 31999 1252 21195 8562 1011 BNF tutte 30903 2253 21327 7268 55 DNB ger 4193 163 3867 163 0 BNCF ita 12017 4088 3643 3542 744 BNCR ita 7549 1515 3003 2978 53 BNB eng 6215 193 5449 55 518 Totale 19710 Tabella 7: Conteggi. Fonte Campioni Ed. 19 (%) Ed. 20 (%) Ed. 21 (%) Ed. 22 (%) Ed. 23 (%) Classify 10267 19,86 23,03 36,18 20,13 0,79 LC 1231 28,11 25,83 24,29 19,58 2,19 BNF 2253 0,00 0,09 0,36 99,56 0,00 DNB 163 0,00 0,00 0,00 100,00 0,00 BNCF 4088 9,10 23,46 55,04 12,40 0,00 BNCR 1515 2,38 9,70 87,92 0,00 0,00 BNB 193 16,58 19,69 26,42 28,50 8,81 Totale 19710 Tabella 8: Distribuzione delle edizioni, relativa alle classificazioni reperite. La tabella 8 è riprodotta nei grafici raccolti nella figura 5 nella pagina successiva, uno per fonte. Si notano alcune scelte precise, quali BNF, DNB e BNCR, di pri- vilegiare una sola edizione. D’altra parte, visto quanto è riportato per Classify, mediamente chi ha intrapreso l’uso della classificazione Dewey da tempo, non sembra aver provveduto ad un aggiornamen- to delle notazioni Dewey nel catalogo, certamente per la complessità TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) Figura 5: Distribuzione delle edizioni. dell’operazione. Infine si nota la (ancora) scarsa diffusione dell’edi- zione 23. Come indicato in precedenza, il catalogo si è arricchito di 19710 nuove classificazioni Dewey in altrettanti record bibliografici. L’aumento è stato del 47,8%, dato che in precedenza i record con tag 082 erano 41255. La distribuzione attuale delle classificazioni Dewey, mostrata nella figura 6 nella pagina seguente, traccia un profilo del posseduto che riflette le aree di interesse delle facoltà e di crescita della biblioteca. La distribuzione delle edizioni Dewey in catalogo è rappresentata dalla figura 7 nella pagina successiva. L’assenza di edizione per un numero significativo di record bibliografici è un caso di disomogeneità catalografica per la cui bonifica si potrebbe utilizzare un metodo molto simile a quello illustrato nel presente lavoro. TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey Figura 6: Distribuzione del posseduto secondo le divisioni della classifica- zione Dewey. Figura 7: Distribuzione delle edizioni della classificazione Dewey. TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) 9 L’indice Dewey nell’OPAC Tramite gli indici a scorrimento, mostrati con l’esempio della figura 8 e citati in precedenza, è possibile offrire nell’OPAC un percorso di ricerca semantico basato sulla classificazione Dewey. I conteggi delle ricerche effettuate dall’utenza mostrano che l’indice di maggior utilizzo è proprio quello della classificazione Dewey, superiore anche a quello dell’indice dei nomi, peraltro particolarmente importante per i rinvii dei numerosi autori antichi e dei papi. Figura 8: L’indice a scorrimento della classificazione Dewey in Koha. TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey 10 Software utilizzato I sette programmi di interrogazione sono stati scritti nel linguaggio Perl, ricorrendo alle API di Koha e alle seguenti librerie:19 LWP per le connessioni HTTP, ZOOM per le connessioni Z39.50, DBI per le connessioni al database MySQL, XML::XPath per il trattamento dei dati XML, WWW::Scraper per il trattamento dei dati HTML, MARC::Record per il trattamento dei record MARC. 11 Conclusioni Il presente lavoro ha permesso di comprendere il valore e le proble- matiche del reperimento in rete di informazione che può concorrere a migliorare cataloghi bibliografici. Ordinariamente si considera di interesse la catalogazione derivata per ottenere l’intero record, ma – attraverso identificativi univoci quali l’ISBN o altri – è possi- bile reperire informazione parziale o ”atomica” con cui si possono raggiungere diversi scopi: • arricchire il catalogo in modo statico, come nel caso presentato; • arricchire l’OPAC in modo dinamico, recuperando uno o più dati al momento della visualizzazione di un record; • aumentare la navigabilità per una migliore fruizione da parte dell’utente dell’OPAC; • contribuire a bonificare situazioni pregresse; • effettuare controlli di qualità; • offrire strumenti di supporto al lavoro di catalogazione; 19Ogni libreria è documentata e reperibile in http://search.cpan.org. http://search.cpan.org TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) • aumentare il numero di identificativi univoci presenti in cata- logo; • effettuare confronti tra basi di dati. 12 Appendice 12.1 Elementi della query per la selezione dei record senza Dewey biblionumber il numero di sistema del record bibliografico listaISBN ExtractValue(marcxml,’//datafield[@tag=020]/subfield [@code=a]’) si tratta dell’elenco delle occorrenze del sot- tocampo $a del tag 020, separate da spazio; normalmente l’occorrenza è unica isbn_presente ExtractValue(marcxml,’count(//datafield[@tag=020] /subfield[@code=a])>0’) almeno una occorrenza di 020$a dewey_assente ExtractValue(marcxml,’count(//datafield [@tag=082]/subfield[@code=a])=0’) nessuna occorrenza di 082$a lingua_008 substr(ExtractValue(marcxml,’//controlfield[\@tag=\008 \]’),36,3) = ’codice_lingua’ Tabella 9: Elementi principali della query per la selezione dei record bibliografici da trattare. La funzione ExtractValue,20 presente in MySQL 5.1.5 o superiori, permette l’interrogazione di dati XML, specificando come parametri il campo da esaminare e una espressione Xpath.21 20http://dev.mysql.com/doc/refman/5.1/en/xml-functions.html. 21http://it.wikipedia.org/wiki/XPath. http://dev.mysql.com/doc/refman/5.1/en/xml-functions.html http://it.wikipedia.org/wiki/XPath TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey 12.2 Parametri per le ricerche di tipo web Per individuare i parametri con cui comporre l’url della ricerca, compreso quello dell’ISBN, si può procedere in uno dei seguenti modi: • lanciare la query e notare l’url della risposta; se questo non contiene i parametri, cioè nel caso di form con method=post, cambiare il parametro method al valore get tramite ”Inspect Element”, presente in diversi browser premendo il tasto destro sulla form, e lanciare l’interrogazione; • oppure analizzare la richiesta http inoltrata dall’interroga- zione tramite un plugin per l’analisi del traffico o apposita funzionalità del browser. 12.3 Esempi di risposte Un esempio di risposta XML da Classify22 è il seguente: Listing 3: XML 014271167 hold desc 2204022659 0 25 22http://classify.oclc.org/classify2/Classify?summary=false&isbn=2204022659. http://classify.oclc.org/classify2/Classify?summary=false&isbn=2204022659 TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey [... omissis ...] Un esempio di risposta Z39.5023 (MARC21), nella sua rappresen- tazione leggibile: Listing 4: MARC21 00932cam 2200253 a 4500 001 500315 005 20050929180451.0 008 851021s1986 nyua 000 0 eng 035 $9 (DLC) 85073338 010 $a 85073338 020 $a 0874472466 (pbk.) : $c $8.95 040 $a DLC $c DLC $d DLC 050 00 $a LB2353.57 $b .A16 1986 082 00 $a 371.2/6 $2 19 245 00 $a 10 SATs : $b the actual and [...] prepare for it. 250 $a 2nd ed. 260 $a New York : $b College Entrance Examination Board : $b ... 300 $a 304 p. : $b ill. ; $c 28 cm. [... omissis ...] Un esempio di codice HTML:24 Listing 5: HTML 23Da Library of Congress, lx2.loc.gov:210/LCDB, find @attr 1=7 0874472466. 24https://portal.dnb.de/opac.htm?query=isbn%3D9783525563427&method= simpleSearch. https://portal.dnb.de/opac.htm?query=isbn%3D9783525563427&method=simpleSearch https://portal.dnb.de/opac.htm?query=isbn%3D9783525563427&method=simpleSearch TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) DNB, Katalog der Deutschen Nationalbibliothek [... omissis ...] [... omissis ...] Link zu diesem Datensatz http://d-nb.info/977758214 [... omissis ...] DDC-Notation 231.6 [DDC22ger] [... omissis ...] la cui versione nel browser è mostrata in figura 9 nella pagina successiva. TR AD UZ IO N E S. Bargioni, Recupero della classificazione decimale Dewey Figura 9: Risultato di una ricerca per ISBN sul catalogo della Deutsche Nationalbibliothek. TR AD UZ IO N E JLIS.it. Vol. 4, n. 2 (Luglio/July 2013) Ai fini di una corretta indicizzazione, si invitano i lettori a citare esclusivamente il testo in lingua inglese; l’unico, infatti, che presenta l’indicazione del numero di pagina, l’abstract, le keywords e le date del processo redazionale. Bargioni, S., M. Caputo, A. Gambardella, et al. ”Recu- pero della classificazione decimale Dewey da altre basi di dati: un progetto di bonifica del catalogo”. JLIS.it. Vol. 4, n. 2 (Luglio/July 2013): Art. #8766, p. 1–25. DOI: 10.4403/jlis.it-8766. Web. http://dx.doi.org/10.4403/jlis.it-8766 Introduzione Individuazione dei record da modificare Le fonti Il ''controllo di qualità'' Il tag 035 Attese durante la ricerca sulle fonti Log Statistiche L'indice Dewey nell'OPAC Software utilizzato Conclusioni Appendice Elementi della query per la selezione dei record senza Dewey Parametri per le ricerche di tipo web Esempi di risposte