Plec de la premiza ca informatiile pe care le va detine CNSAS nu mai sunt secrete. Arhiva Secu trebuie făcută publică, şi pusă pe Internet. Secu, pardon, SRI nu pare dispus să dea şi opis-urile. Lucru care face imposibilă exploatarea arhivei. Forma JBOF (just a bunch of files) este obstacolul.
Cu, sau fără opis, originalele trebuie fotocopiate. Am o idee de model de prelucrare. Presupun ca sunt texte greu lizibile, nu toate dactilografiate. Pentru prelucrări de felul acesta, programele OCR de digitizare a informaţiei, mai mult încurcă automatizarea prelucrării fotocopiilor.
Practic, ideea mea consta in folosirea voluntarilor la fotocopierea paginilor din dosarele fostei Securitati, urmata de intocmirea instrumentelor de cautare, tot cu voluntari.
In linii mari, proiectul pe care vi-l propun, are ca obiectiv intocmirea unei baze de date, prin tehnica SETI, DEX-on-line, Gutenberg project, sau cum vreţi să-i ziceţi, tehnicii prelucrarii distribuite a datelor.
Pe scurt, fazele sunt:
1. Scanarea
2. Distribuirea paginilor si extragerea manuala a cuvintelor cheie.
3. Stringerea cuvintelor cheie si verificarea calitatii compilatiei.
4. Intocmirea index-ului de cautare.
5. Exploatarea bazei de date.
Cum se face? Descriu mai jos fazele în care voluntarii au un rol crucial.
Faza 1., care este si locul ingust al fluxului, presupune prelucrarea primara. Asta inseamna sali de scanare in Bucuresti, pentru cazul "centralizat", si in orasele importante, pentru cazul "cu distributie limitata", sali in care intra numai voluntari instruiti, ce au ca singura operatie, scanarea dupa un protocol unic, si salvarea fisierelor crude in folderele alocate. Numai in arhiva Secu sunt circa 200 milioane de pagini, dupa socotelile mele. Foarte putine pagini pot fi prelucrate cu programe OCR. Numai pentru scanare, volumul de munca estimat este de 3 pina la 10 milioane de ore om. Cu o mie de aparate de scanare, lucrind teoretic 2000 de ore pe an, si cu un factor real de utilizare de 0,7 s-ar putea fotocopia intreaga arhiva, in 2 pina la 7 ani. Volumul de date estimat este intre 20 si 60 de Teraocteti, la 100-300 KB per pagină fotocopiată. Sa-l denumim bazinul amorf.
Fazele 2. şi 3. merg in paralel cu faza 1., si aici trecem la extragerea cuvintelor semnificative, cu ajutorul voluntarilor ce pot fi raspinditi in toata Lumea. Iata cum. Programul-mama trimite fiecarui client cite o pagina aleasa la intimplare, din bazinul amorf. Clientul, cind are timp, extrage cuvintele cheie cum ar fi antroponimele, toponimele si numele de organizatii economice, apoi le scrie in rubricile de pe interfatza grafica a micului program-client pe care-l instaleaza atunci cind consimte sa participe la proiect. Incarca apoi cu un simplu clic cuvintele extrase, in setul de date atribuit fiecarei pagini. Voluntarii din faza a 2-a nu vor vedea decit pagini fara legatura intre ele, repartizarea fiind aleatorie, iar singura lor treaba este sa faca operatia simpla de "recoltare". Rutina poate fi repetata ori de cite ori este nevoie. Cu alte cuvinte, programul-mama, compara după o schemă logică, cele doua sau mai multe seturi de cuvinte cheie corespunzătoare fiecarei pagini, iar atunci cind diferentele sunt flagrante, trimite pagina cu pricina spre alti clienti, pina cind setul de cuvinte se stabilizează. Pagina ce trece "examenul" de reproductibilitate este promovata automat, in bazinul structurat, adica in baza de date definitiva, cu motor de cautare, cu tot dichisul.
In viziunea mea, cu proiectul, odata definitivat, bazinul structurat ar trebui sa fie accesibil oricui, fara taxe si cereri, aprobari, parafe sau prezentza fizica a celui ce cauta. In felul acesta cred ca amnezia de care suntem bintuiti poate fi combatuta cu succes, istoricii vor fi mai feriti de boli profesionale, for putea consulta sursele chiar de-acasa. Insusi voluntariatul are o valoare educativa, pe linga interesul pentru trecut pe care-l intretine in voluntari proiectul in sine.
Pe linga codeala SRI, o singura problema majora vad. Nici o organizatie nu actioneaza intru anularea propriei ratiuni de existentza. Iar proiectul de dare in exploatare a arhivelor Securitatii, odata finalizat, CNSAS va trebui desfiintat.
Acum, daca este sa evaluam costurile, o evidentza ca vai de ea, si un CNSAS birocratizat in mod obtuz, guvernat de spiritul notarial al stampilei si-al ghiseului, o organizatie cu o sperantza de viata de 25-30 de ani, daca nu eterna, cred ca ar costa cu mai mult decit proiectul in echipa informala, propus de mine. Cine se-ncumeta?