www.digiTANTO.it - Ideato, fondato, diretto (e digitato...) da Andrea de Prisco

Digitando, digitando... (clicca per tornare alla pagina precedente...)

Articolo pubblicato su www.digiTANTO.it - per ulteriori informazioni clicca qui

Digitando, digitando... n. 47/2009 del 30.11.2009

Progetto "MC-online" - Fase 2
La continuazione del sogno...

La scorsa settimana, ormai fuori combattimento causa sindrome da scannerizzazione selvaggia (di MC), me la sono "cavata" - si fa per dire! - con il montaggio video di due filmatini celebrativi dell'evento: la conclusione, felice conclusione, del Progetto "MC-online" Fase 1. Forse più divertenti dei miei soliti "polpettoni" (o polpettini) settimanali! :-)

Come vado ormai ripetendo da mesi, la Fase 1 del Progetto prevedeva (che bello potersi permettere il verbo al passato!) la "pura e semplice" digitalizzazione, in stile Google Books, dei 218 numeri di MCmicrocomputer, ovvero tutti quelli usciti in edicola, pubblicati dal settembre 1981 al giugno 2001. Praticamente a partire dall'era pre-mouse-e-finestre - non tutti sanno che con i primi "personal" si dialogava per iscritto! - fino al Web conclamato tanto indispensabile oggi (al limite "1.0" ma, anche io, considero solo fino ad un certo punto questa suddivisione in "release" del mondo WWW).

L'intera opera scannatoria, iniziata il 3 settembre 2009 e conclusasi il successivo 22 novembre (poco più di due mesi e mezzo di intenso, ma soprattutto appassionato lavoro) non è stata una semplice - e a parer mio inutile! - trasformazione del cartaceo in JPG, ma la produzione di veri e propri PDF con, all'interno, anche il cosiddetto testo "ricercabile".

Come dire che all'interno dei PDF il testo c'è... ma come OCR (Riconoscimento Ottico dei Caratteri) comanda: ha, diciamo, l'affidabilità tipica dei sistemi ATTUALI di questo tipo e, naturalmente, non è proprio pensabile andare a controllare gli articoli all'interno, uno per uno, riga per riga, parola per parola, carattere per carattere... (al solo pensiero, "me cala la palpebra"!!! :-)))

L'unica possibilità di ottenere, un giorno, una affidabilità maggiore risiede esclusivamente nell'auspicabile (ancorché inarrestabile) processo tecnologico. Dai PDF già "riconosciuti", in un attimo è possibile avere nuovamente i JPG delle pagine a 300 dpi e, quando i tempi saranno più maturi, ri-sottoporre il tutto ad un nuovo e più affidabile - e perché no, più intelligente! - processo OCR.

Con questo, sia chiaro, non sto e non voglio assolutamente dire che... è successo un vero e proprio disastro... anzi! Secondo una mia personalissima stima (ovviamente assolutamente "a naso") siamo già ad un buon 90-95% di affidabilità. Quindi, sui PDF (che NON sono attualmente disponibili online, non correte a cercarli e a tentare di "appropriarvene" ;-) effettuare ricerche sulle varie parole produce risultati, sempre a parer mio, più che significativi. Se poi mancherà all'appello qualche articolo, perché l'OCR ha "toppato" proprio quella parola cercata... pazienza! Questo passa il convento... tecnologico di oggi! (quello dei Frati Accappini ScanJettini della Santa Acquisizione!!! :-))))))))))))))))))))))

Quello che sicuramente manca, all'interno dei PDF prodotti più o meno automaticamente dal software di scansione dell'HP ScanJet N6010 (mio fedele alleato per 61.200 volte, quante sono le pagine che ha, poveraccio, digitalizzato!) è la "giusta concatenazione" del testo. Se si prova a selezionare l'articolo all'interno di una pagina... parlo sempre dei PDF in mio possesso... si prende un po' tutto disordinatamente: colonne, riquadri, didascalie. Addirittura sono felicemente passate sotto OCR finanche le schermate dei software provati, quindi eventuali scritte mostrate a video negli articoli, se sufficientemente chiare e visibili (e quasi sempre lo erano...) sono anche quelle correttamente riconosciute.

E non è una cosa del tutto inutile... né tantomeno fuorviante! Pensate che in una ricerca di una determinata parola, se questa era visualizzata solo in una schermata a corredo dell'articolo è assai probabile che compaia nel risultato stesso della ricerca. Bello, no?!? :-)))

Fase 2... già iniziata! (e chi mi ferma?!?)

Copio & incollo dalla lettera invito, diretta a tutti gli ex-collaboratori di MC, pubblicata su www.mc-online.it:

"Il passo successivo potrebbe essere l'implementazione di uno specifico motore di ricerca per facilitare l'accesso a quella vera e propria montagna di informazione contenuta nei 218 numeri della Rivista per la quale tutti noi abbiamo lavorato tantissimi anni.

Per portare a termine questa seconda fase ho bisogno delle liberatorie che, un po' per volta, sto chiedendo ai vari autori degli articoli, sperando di incontrare consensi.

La mia idea, che con uno sforzo di fantasia senza precedenti chiamo Progetto "MC-online" Fase 2, prevede l'implementazione di un motore di ricerca, basato sull'indice analitico, collegato ad un generatore di file PDF. Effettuando una ricerca con varie modalità (Autore, Rubrica, Titolo, Periodo, ecc.), trovato l'articolo desiderato, se questo farà parte di quelli, per così dire, "liberati", sarà possibile visualizzare il PDF. Altrimenti un avviso indicherà che il pezzo non è disponibile... :-("

Bene, tutto ciò premesso, vi dico subito, vi confermo, vi giuro solennemente! :-))) che la Fase 2 è già iniziata: non mi sono preso nemmeno mezza giornata di ferie terminata la "scannatio selvaggia" dei mesi scorsi! Sto raccogliendo, via via, le varie liberatorie (sarà difficile, se non impossibile, riuscire ad ottenerle tutte... ma, si sa, mi piacciono PROPRIO le missioni impossibili ;-) e ho iniziato a controllarmi a mano TUTTO l'indice analitico di MC che, ahimè, è pieno zeppo d'errori e incomprensioni. Nel senso che, non ho capito perché, molti articoli mancano (non erano "compresi"), come se fossero di scarso interesse ai fini delle ricerche.

Dovete sapere che l'indice analitico di MC, durante la lunga vita del nostro amato mensile, veniva aggiornato annualmente in vista della pubblicazione sul numero di dicembre.

Si può dire che troppe persone, nel corso del tempo, vi hanno messo mano secondo... "propria logica".

Ora mi trovo davanti né più né meno che un reperto archeologico... pertanto da trattare con attenzione (e cura) maniacale: ricostruire i pezzi mancanti e correggere i tanti errori ed omissioni.

(io non mi sono mai occupato, in redazione, dell'indice analitico... pertanto non posso nemmeno finire la frase con "per mia colpa, mia colpa, mia grandissima colpa!" :-)

Ad oggi si tratta di un file XLS: i vari spreadsheet via via esistiti se li è "fatti" praticamente tutti nel corso degli anni! Ovviamente... una riga per ogni articolo, e colonne: rubrica, titolo, autori, numero rivista, pagina e poc'altro. Come dicevo prima alcuni articoli mancano, per altri è sbagliato il numero di pagina, spesso e volentieri manca qualche autore (capitava in più di un'occasione che le firme fossero più d'una). Chiaramente... se ne esce "vivi" solo con un lavoro manuale/certosino (qui il convento è un altro...): per fortuna posso contare sui PDF, così almeno "apro e sfoglio" quelli. Non mi sto facendo prendere dal panico... e mi sono posto come obiettivo la verifica di 5 numeri al giorno (due alla mattina, tre alla sera... quasi fosse un medicinale!!! :-))) Se, come spero, procedo di questo passo, tra un mesetto e mezzo (diciamo due col Natale incombente) dovrei aver finito anche questo, propedeutico, passo.

Comunque... presto il file lo metterò online... così se qualcuno vuole darmi una mano... :-))) Nelle righe ho già inserito un link che apre automaticamente quel numero di MC (su ISSUU.com) alla pagina corrispondente. La verifica, tutto sommato, è veloce... il VERO problema è che sono oltre 8000 righe... e ne mancano svariate centinaia...

(ma non mollo... tranquilli!)

Nel frattempo, come sapete, sto cercando di farmi rilasciare le liberatorie per la pubblicazione dei PDF. Mi rendo conto che è utopico pensare di riuscire a contattare tutti ma proprio tutti gli autori e che, altrettanto tutti, siano disposti a "mollare la presa". Pertanto, qui lo dico e qui... lo confermo, reputo assai complicato, in tempi ragionevoli, poter pubblicare per intero i PDF... interi dei fascicoli di MC. :-(

(E' una brutta notizia, lo so, ma la legge sul diritto d'autore è TOSTA!)

Quello che posso fare, e sicuramente lo farò, è estrarre in formato PDF gli articoli "sbloccati" che ad oggi sono già più di 4.000 (ci avviciniamo brillantemente al 50% del totale) ed è un numero certamente destinato a crescere col passare del tempo. I dubbiosi, mi auguro, prima o poi "cederanno" (la liberatoria!!!).

Come ho già detto in alcuni forum e gruppi, è iniziato anche il caro, vecchio, insostituibile "tam tam".

Una cosa è certa... più persone verranno a conoscenza del mio Progetto "MC-online" più sarà... meno utopico riuscire nell'impresa. Semplice, no?!?

PS: visto che siete, pazientemente, arrivati a leggere fin qui... ho un regalino per voi (potrei definirlo un "bonus track" :-)
Dal momento che contiene articoli del sottoscritto, tutti già "liberati", per farvi rendere conto di persona del livello "qualitativo" dei PDF, vi REGALO il n. 1 di MC-digest (sottotitolo: raccolta integrata di articoli tratti da MCmicrocomputer), dedicato all'argomento Digital Imaging! Era praticamente la mia "opera omnia" su tale argomento, ai tempi in cui fu pubblicato (settembre 1995). Vi prego, però, di non "postare" il link diretto al file da altre parti (non perché sussista il divieto... ci mancherebbe altro!) ma di, eventualmente, pubblicare il link a questa stessa pagina: così mi aiuterete a diffondere il Progetto e non, solo, la "rivistina piccina picciò". Poi, chiunque, se vuole, se lo scarica e da qui!

:-)

Vuoi commentare l'articolo? Scrivi il tuo messaggio e clicca su Invia. Ricordati di specificare il mittente... ovviamente se vuoi! :-)

Inserisci il tuo commento:

Nome e Cognome: Indirizzo e-mail:

Facoltativo: Autorizzo la pubblicazione del messaggio sul sito www.digiTANTO.it
NB: nel rispetto della privacy NON verrà riportato sul sito né il cognome né l'indirizzo e-mail del mittente!

Da: Andrea B.

Veramente complimenti per il ciclopico lavoro che sta svolgendo!

Ci sono cresciuto con mc, lo portavo a scuola, in vacanza... ed è stata la mia guida di fiducia per la mia professione che tutt'ora svolgo.

Purtroppo i numeri che gelosamente custodivo sono andati persi nell'allagamento del garage (la sfortuna colpisce sempre.....) e quindi spero che riesca ad avere tutte le liberatorie per poter di nuovo rileggere un pezzo importante della mia vita.

Aspettavo con trepidazione l'uscita in edicola di ogni numero e ogni volta le mie aspettative su quello che potevo trovare erano sempre ampiamente superate per via della cura e della tanta passione che mettevate in ogni numero.

Di nuovo veramente complimenti e speriamo che il progetto prosegua nel migliore dei modi!

Saluti
Andrea

Da: Giovanni D.

Ma qui c'è poco da commentare se non dirti un caloroso Grazie!! Chi sono io? Semplicemente un ex-ragazzo di 17 anni che nell'aprile 1982 comprava il numero 7 della rivista (quello di marzo perché allora usciva con il nome del mese precedente sulla testata, tant'è che a luglio comparve un giugno-luglio 1982...). Ti ho conosciuto quindi con "l'Othello sul computer", comprai una TI 58C e quindi una HP 41 CV (mitica, in pratica la usai quasi solo per la "programmazione sintetica", qualcuno se la ricorda?) fino ad arrivare ad oggi (attraverso Zx Spectrum e IBM compatibili), quando per casuale, bellissima coincidenza, per festeggiare l'acquisto dell'iMac, ho scoperto questo sito! Un Grazie a tutta l'attività di MC microcomputer, che mi ha accompagnato praticamente poi sempre in tutta il mio rapporto con i computer; un grazie per quella passione e quella freschezza degli articoli che ti faceva sentire tra "amici"!

Da: Carlo L.

Che ricordi!!!
Mi sta quasi scendendo la lacrimuccia...
Venni, all'età di 16 anni, con la "buonanima" di mio padre a prendere il numero arretrato nella "redazione" di Via Valsolda (sbaglio?) per scegliere se farmi regalare lo Spectrum o il Vic 20!!!

Un sola cosa da dire...

Grazie, grazie, grazie! Anche per la cultura Informatica e per l'ironia di quella mitica rivista!

Articolo pubblicato su www.digiTANTO.it - per ulteriori informazioni clicca qui