Progetto 'MC-online' - Fase 2
Non mi sono concesso nemmeno mezza giornata di pausa, è iniziata (subitissimo!) già la fase 2.
La scorsa settimana, ormai fuori combattimento causa sindrome da scannerizzazione selvaggia (di MC), me la sono "cavata" - si fa per dire! - con il montaggio video di due filmatini celebrativi dell'evento: la conclusione, felice conclusione, del Progetto "MC-online" Fase 1. Forse più divertenti dei miei soliti "polpettoni" (o polpettini) settimanali! :-)
Come vado ormai ripetendo da mesi, la Fase 1 del Progetto prevedeva (che bello potersi permettere il verbo al passato!) la "pura e semplice" digitalizzazione, in stile Google Books, dei 218 numeri di MCmicrocomputer, ovvero tutti quelli usciti in edicola, pubblicati dal settembre 1981 al giugno 2001. Praticamente a partire dall'era pre-mouse-e-finestre - non tutti sanno che con i primi "personal" si dialogava per iscritto! - fino al Web conclamato tanto indispensabile oggi (al limite "1.0" ma, anche io, considero solo fino ad un certo punto questa suddivisione in "release" del mondo WWW).
L'intera opera scannatoria, iniziata il 3 settembre 2009 e conclusasi il successivo 22 novembre (poco più di due mesi e mezzo di intenso, ma soprattutto appassionato lavoro) non è stata una semplice - e a parer mio inutile! - trasformazione del cartaceo in JPG, ma la produzione di veri e propri PDF con, all'interno, anche il cosiddetto testo "ricercabile".
Come dire che all'interno dei PDF il testo c'è... ma come OCR (Riconoscimento Ottico dei Caratteri) comanda: ha, diciamo, l'affidabilità tipica dei sistemi ATTUALI di questo tipo e, naturalmente, non è proprio pensabile andare a controllare gli articoli all'interno, uno per uno, riga per riga, parola per parola, carattere per carattere... (al solo pensiero, "me cala la palpebra"!!! :-)))
L'unica possibilità di ottenere, un giorno, una affidabilità maggiore risiede esclusivamente nell'auspicabile (ancorché inarrestabile) processo tecnologico. Dai PDF già "riconosciuti", in un attimo è possibile avere nuovamente i JPG delle pagine a 300 dpi e, quando i tempi saranno più maturi, ri-sottoporre il tutto ad un nuovo e più affidabile - e perché no, più intelligente! - processo OCR.
Con questo, sia chiaro, non sto e non voglio assolutamente dire che... è successo un vero e proprio disastro... anzi! Secondo una mia personalissima stima (ovviamente assolutamente "a naso") siamo già ad un buon 90-95% di affidabilità. Quindi, sui PDF (che NON sono attualmente disponibili online, non correte a cercarli e a tentare di "appropriarvene" ;-) effettuare ricerche sulle varie parole produce risultati, sempre a parer mio, più che significativi. Se poi mancherà all'appello qualche articolo, perché l'OCR ha "toppato" proprio quella parola cercata... pazienza! Questo passa il convento... tecnologico di oggi! (quello dei Frati Accappini ScanJettini della Santa Acquisizione!!! :-)))
Quello che sicuramente manca, all'interno dei PDF prodotti più o meno automaticamente dal software di scansione dell'HP ScanJet N6010 (mio fedele alleato per 61.200 volte, quante sono le pagine che ha, poveraccio, digitalizzato!) è la "giusta concatenazione" del testo. Se si prova a selezionare l'articolo all'interno di una pagina... parlo sempre dei PDF in mio possesso... si prende un po' tutto disordinatamente: colonne, riquadri, didascalie. Addirittura sono felicemente passate sotto OCR finanche le schermate dei software provati, quindi eventuali scritte mostrate a video negli articoli, se sufficientemente chiare e visibili (e quasi sempre lo erano...) sono anche quelle correttamente riconosciute.
E non è una cosa del tutto inutile... né tantomeno fuorviante! Pensate che in una ricerca di una determinata parola, se questa era visualizzata solo in una schermata a corredo dell'articolo è assai probabile che compaia nel risultato stesso della ricerca. Bello, no?!? :-)))
Fase 2... già iniziata! (e chi mi ferma?!?)
Copio & incollo dalla lettera invito, diretta a tutti gli ex-collaboratori di MC, pubblicata su www.mc-online.it: "Il passo successivo potrebbe essere l'implementazione di uno specifico motore di ricerca per facilitare l'accesso a quella vera e propria montagna di informazione contenuta nei 218 numeri della Rivista per la quale tutti noi abbiamo lavorato tantissimi anni. Per portare a termine questa seconda fase ho bisogno delle liberatorie che, un po' per volta, sto chiedendo ai vari autori degli articoli, sperando di incontrare consensi. La mia idea, che con uno sforzo di fantasia senza precedenti chiamo Progetto "MC-online" Fase 2, prevede l'implementazione di un motore di ricerca, basato sull'indice analitico, collegato ad un generatore di file PDF. Effettuando una ricerca con varie modalità (Autore, Rubrica, Titolo, Periodo, ecc.), trovato l'articolo desiderato, se questo farà parte di quelli, per così dire, "liberati", sarà possibile visualizzare il PDF. Altrimenti un avviso indicherà che il pezzo non è disponibile... :-("
Bene, tutto ciò premesso, vi dico subito, vi confermo, vi giuro solennemente! :-))) che la Fase 2 è già iniziata: non mi sono preso nemmeno mezza giornata di ferie terminata la "scannatio selvaggia" dei mesi scorsi! Sto raccogliendo, via via, le varie liberatorie (sarà difficile, se non impossibile, riuscire ad ottenerle tutte... ma, si sa, mi piacciono PROPRIO le missioni impossibili ;-) e ho iniziato a controllarmi a mano TUTTO l'indice analitico di MC che, ahimè, è pieno zeppo d'errori e incomprensioni. Nel senso che, non ho capito perché, molti articoli mancano (non erano "compresi"), come se fossero di scarso interesse ai fini delle ricerche.
Dovete sapere che l'indice analitico di MC, durante la lunga vita del nostro amato mensile, veniva aggiornato annualmente in vista della pubblicazione sul numero di dicembre. Si può dire che troppe persone, nel corso del tempo, vi hanno messo mano secondo... "propria logica". Ora mi trovo davanti né più né meno che un reperto archeologico... pertanto da trattare con attenzione (e cura) maniacale: ricostruire i pezzi mancanti e correggere i tanti errori ed omissioni.
(io non mi sono mai occupato, in redazione, dell'indice analitico... pertanto non posso nemmeno finire la frase con "per mia colpa, mia colpa, mia grandissima colpa!" :-)
Ad oggi si tratta di un file XLS: i vari spreadsheet via via esistiti se li è "fatti" praticamente tutti nel corso degli anni! Ovviamente... una riga per ogni articolo, e colonne: rubrica, titolo, autori, numero rivista, pagina e poc'altro. Come dicevo prima alcuni articoli mancano, per altri è sbagliato il numero di pagina, spesso e volentieri manca qualche autore (capitava in più di un'occasione che le firme fossero più d'una). Chiaramente... se ne esce "vivi" solo con un lavoro manuale/certosino (qui il convento è un altro...): per fortuna posso contare sui PDF, così almeno "apro e sfoglio" quelli. Non mi sto facendo prendere dal panico... e mi sono posto come obiettivo la verifica di 5 numeri al giorno (due alla mattina, tre alla sera... quasi fosse un medicinale!!! :-))) Se, come spero, procedo di questo passo, tra un mesetto e mezzo (diciamo due col Natale incombente) dovrei aver finito anche questo, propedeutico, passo.
Comunque... presto il file lo metterò online... così se qualcuno vuole darmi una mano... :-))) Nelle righe ho già inserito un link che apre automaticamente quel numero di MC (su ISSUU.com) alla pagina corrispondente. La verifica, tutto sommato, è veloce... il VERO problema è che sono oltre 8000 righe... e ne mancano svariate centinaia...
(ma non mollo... tranquilli!)
Nel frattempo, come sapete, sto cercando di farmi rilasciare le liberatorie per la pubblicazione dei PDF. Mi rendo conto che è utopico pensare di riuscire a contattare tutti ma proprio tutti gli autori e che, altrettanto tutti, siano disposti a "mollare la presa". Pertanto, qui lo dico e qui... lo confermo, reputo assai complicato, in tempi ragionevoli, poter pubblicare per intero i PDF... interi dei fascicoli di MC. :-(
(È una brutta notizia, lo so, ma la legge sul diritto d'autore è TOSTA!)
Quello che posso fare, e sicuramente lo farò, è estrarre in formato PDF gli articoli "sbloccati" che ad oggi sono già più di 4.000 (ci avviciniamo brillantemente al 50% del totale) ed è un numero certamente destinato a crescere col passare del tempo. I dubbiosi, mi auguro, prima o poi "cederanno" (la liberatoria!!!). Come ho già detto in alcuni forum e gruppi, è iniziato anche il caro, vecchio, insostituibile "tam tam". Una cosa è certa... più persone verranno a conoscenza del mio Progetto "MC-online" più sarà... meno utopico riuscire nell'impresa.
Semplice, no?!?