Cătălin Frâncu, fondatorul dexonline, la Digital Shift: Cum s-a transformat un proiect studențesc început în 2001 la Boston în cel mai accesat dicționar online

Cătălin Frâncu, fondatorul dexonline, la Digital Shift: Cum s-a transformat un proiect studențesc început în 2001 la Boston în cel mai accesat dicționar online

În primii săi 20 de ani de existență, dexonline – cel mai complex dicționar de limbă română de pe Internet – a schimbat radical modul în care căutăm sensurile cuvintelor și le verificăm ortografia.

Invitat în studioul Digital Shift, fondatorul dexonline, Cătălin Frâncu, a povestit cum s-a transformat un proiect studențesc pe care l-a început la Boston, în anul 2001, în cel mai accesat dicționar online din țara noastră, pe care îl folosesc milioane de români.

Cătălin Frâncu s-a născut într-o familie de cercetători. A învățat să citească pe la 3-4 ani, de la fratele său mai mare. Și a împletit interesul pentru cărți pe care l-a câștigat de mic cu dragostea pentru tehnologie.

A absolvit Liceul de Informatică Tudor Vianu din Capitală, în anul 1996. Și-a continuat studiile la Politehnica din București, până în 1999.

Apoi, a aplicat la mai multe universități americane, printre care Ruthgers, unde fratele său era deja doctorand. Dar a ales să urmeze Massachusetts Institute of Technology (MIT), una dintre cele mai apreciate facultăți din Statele Unite și din lume.

În a doua vacanță de vară din America, a făcut un internship la Google. Unde s-a și angajat apoi și a devenit și acționar. Acolo, peste Ocean, a început și povestea dexonline.

Primul pas: studentul la MIT și-a făcut propriul dicționar pe Internet

„Mi-a venit o idee când eram student în anul de master - în Boston, la facultate (la Massachusetts Institute of Technology – n.red.) - și voiam să învăț cu ce se mânâncă internetul dinamic.

Că știam ideea de html, unde poți să îți faci o pagină, să pui o poză cu tine ... și cam acela era Internetul, în 2001. Dar auzisem că există ideea de pagini dinamice, unde poți să primești interogări de la utilizatori și să le răspunzi. Adică un dicționar, de exemplu.

Și am vrut să încep un proiect care să poată duce eventual la ceva care să și rămână. Adică nu voiam doar să copiez tutoriale de pe Internet și să mă bucur că merg.

Voiam să încep un proiect care să și facă ceva practic. Și asta s-a coroborat cu faptul că – fiind student într-o țară de limbă străină – aveam destul de mult de furcă cu cursurile umaniste. Aveam cam unul pe semestru... de muzică, de literatură, de istorie. Trebuia să scriu câte un eseu pe săptămână sau la două săptămâni.

Vorbim despre anul 2001, când Internetul era încă bebeluș, să zicem. Iar dicționarele de limbă engleză aveau deja toate sensurile de la Shakespeare încoace și evoluția în limbă.

Și m-am gândit: hai să încerc să fac asta și pentru limba română. Pentru că, fiind student într-o țară de limbă străină, chiar simțeam uneori nevoia să caut un cuvânt. Și nu aveam unde”, povestește Cătălin Frâncu, invitat în Studioul Spotmedia.ro, la Digital Shift.

Cum s-a dezvoltat primul dicționar online de limbă română

„După 6 luni, dicționarul avea 60 de cuvinte. Sau 80 – 100 de cuvinte, acolo, pe care le tastam eu, când n-aveam ce face și mai testam sistemul. Mai adăugam o funcție nouă, mai adăugam o definiție, ca să văd cum arată în pagină.

Mă mai rugasem de colegi să mai bage câte o definiție. Dar nu captivasem pe nimeni.

În martie 2002, după 6-7 luni, s-a întâmplat un lucru extraordinar. Federația Română de Scrabble încerca să se digitizeze. La scrabble, trebuie să existe o listă oficială de cuvinte. Și câtă vreme încercau doar forma de bază a cuvântului – deci doar « copil » dar nu « copii » și « copiilor » - lucrurile erau relativ simple.

Aveau un document word pe care îl plimbau de colo–colo cei câțiva editori. Dar când s-au hotărât și formele flexionare, adică toate conjugările de verbe și declinările de adjective și substantive – brusc meseria asta a devenit mult mai grea. Vorbim despre 2-3 milioane de forme. Chiar și documentul Word, în sine, ar fi prea mare. Nu mai încăpea pe dischete.

Și voiau să colaboreze cumva digital într-un sistem. Ca să nu mai aibă tot felul de probleme, cum ar fi că nu mai știe unul ce versiune au ceilalți.

Și au găsit dexonline (...) și au început să bage definiții. Întâi unul, după aceea doi (oameni - n.red.). Vreo 10 oameni au venit de acolo și fiecare a contribuit măcar cu câteva zeci de pagini de dicționar tehnoredactate complet manual, în primă fază.

Atunci am zis să împărțim sistematic DEX-ul. Pentru că începuseră să se calce pe picioare deja, să introducă aceeași definiție două persoane. Era efort pierdut.

Și am zis: tu iei litera « K » , tu iei litera « J » . Am început cu literele mici, ca să ne putem lăuda că am terminat deja 13 litere din cele 31. Dar sigur că erau «Â» care n-are niciun cuvânt. «Y»...

Și după aceea ritmul a fost susținut. Chiar accelerat. Și asta a durat până în 2004 (3 ani - n.red.), când am terminat de introdus DEX-ul.

După care am continuat să ne orientăm spre alte dicționare”, își amintește Cătălin Frâncu.

Câți oameni lucrează acum la dexonline și ce face fiecare

„Mi-am dat seama că avem nevoie de nișe, de sinonime, de antonime. Avem nevoie de arhaisme și regionalisme. Ar fi frumos să vedem cum a evoluat limba, deci avem nevoie de arhaisme și neologisme în același timp. Și dexonline a început să crească piramidal. (...)

În același timp, a crescut și volumul de cod necesar. Suntem doi programatori (după ani în care Cătălin Frâncu a fost singurul programator și a lucrat cu normă întreagă la dexonline - n.red.). Și am avut stagiari, câte o vară.

Astăzi echipa are cam 8 oameni.

Există 2 oameni care duc 99% din introducerea de date. Care nici ea nu mai este brutală, prin tastare de la zero. Ci avem un software OCR, care scanează pagini și recunoaște textul de pe ele. Și trebuie doar corectat textul de pe ele.

Un exemplu de cât de vechi e dexonline – că am făcut 20 de ani anul ăsta !!! – e că pe vremea aceea (când a fost creat dicționarul - n.red.) nu exista un OCR bun. Dacă îi dădeai un text românesc nu prea știa diacritice. Erau gândite (softurile - n.red.) pentru engleză și franceză. Ulterior, am trecut la cuvinte a căror etimologie a cuvântului putea fi în chirilice sau în litere slavone, cu caractere grecești. Și atunci se bulversa de tot OCR-ul.

A evoluat și el în timp. Astăzi înțelege lucrurile astea foarte bine și ne facem foarte bine treaba cu el.

Dar este încă nevoie de două persoane cu normă întreagă - și am putea folosi încă 2-3 persoane care să facă asta – să ținem pasul cu câte dicționare am dori să introducem.

Dincolo de doi programatori și doi editori, mai există un supervizor al editării, care face mai mult de atât. El face o muncă foarte utilă: structurează definițiile.

Noi avem definiții acum pentru un cuvânt din 10 dicționare. Poate 20. Multe sunt la fel. Să spunem, ediții consecutive ale DEX. Unde sunt la fel, putem comasa. Dar unde diferă, e foarte interesant ce diferă. Poate un cuvânt a devenit consemnat ca rar folosit. Sau poate e consemnat ca o nișă anume. Cuvintele astea trebuie sintetizate într-o structură. De asemenea, dexonline are așa: e un perete de text când deschizi o pagină.

Nu e o structură acolo. Și noi facem asta: dăm o structură de sensuri, cu subsensuri. La fiecare sens agățăm exemple, pe care poți da clic pentru a vedea cum se folosește (cuvântul cu respectivul sens – n.red.) într-o propoziție. Asta face al cincilea om. Structuristul nostru, cum îl numim.

Avem desenator pentru cuvântul zilei. Acolo a fost o singură persoană. Apoi au fost două. Acum sunt 5-6 persoane, prin rotație. Fiecare ilustrează cuvântul zilei.

Ar mai fi persoana care caută cuvântul zilei. Acum, la început de noiembrie, trece prin ce s-a întâmplat în decembrie și vede ce ar fi de consemnat. Și ce nu s-a făcut deja. Că o facem de 10 ani. Și am menționat deja toți marii scriitori care s-au născut pe 7 decembrie, să spunem. Acum vrem altceva”, spune Cătălin Frâncu.

Ce poate face în plus dicționarul online față de cel tipărit

Pe lângă cuvintele din ediția tipărită a Dicționarului Explicativ al Limbii Române - care sunt circa 65.000 - dexonline mai conține și termeni din dicționare de specialitate (petrologie, aviație, mitologie etc). În plus, dicționarul online își ajută utilizatorii nu doar să afle sensurile cuvintelor, ci și să își îmbogățească vocabularul în alte moduri.

„Am tot adăugat funcții, de-a lungul anilor. Spre exemplu, un lucru pe care un dicționar tipărit nu-l va putea face niciodată este căutarea prin tot textul definițiilor.

Să spunem că vrei să afli cum se numeau copiii regilor Spaniei. Tastezi «copil rege Spania», bifezi că vrei să cauți în textul definițiilor și dexonline îți va spune: infante.

Dacă ai doar cartea tipărită (dicționarul – n.red.), n-ai cum să faci asta. Deci unele aspecte pe care le rezolvă dexonline sunt cantitative, îți câștigă timp. Dar altele sunt calitative: nu poți face asta, oricât timp ai avea”, a explicat Cătălin Frâncu.

În timp, românii au descoperit avantajele utilizării dexonline. Așa că acum, potrivit lui Cătălin Frâncu, sunt între 300.000 și 400.000 de căutări zilnice.

Iar lunar 3 milioane de utilizatori caută definiții sau alte informații despre cuvintele limbii române, pe dexonline.

De ce costă să cumperi DEX, dar poți folosi gratuit dexonline

În librăriile de pe Internet, un exemplar al DEX costă cel puțin 150 de lei. Dar accesarea dexonline - care conține mai multe informații decât dicționarul realizat de Institutul „Iorgu Iordan” al Academiei Române - e gratuită.

În context, l-am întrebat pe Cătălin Frâncu dacă are acordul Academiei Române să reproducă și să publice conținutul Dicționarului Explicativ al Limbii Române.

„Aici e marea zonă gri și marea discuție despre ce e legal și ce e etic. Noi am avut întotdeauna abordarea că limba română este o comoară mult prea însemnată pentru a îngrădi accesul la ea.

Ceea ce, sigur, e un spirit haiducesc. Dar un argument important este că lucrurile făcute din bani publici trebuie să rămână în domeniul public. Noi întotdeauna am considerat că nu e normal să existe copyright pe bunurile făcute din bani publici.

Dar așa s-a întâmplat, de-a lungul timpului, cu dicționarele. Și cu Monitoarele Oficiale. Accesul la Monitoarele Oficiale se putea face, mai demult, doar printr-o firmă care cerea bani pentru asta.

Ceea ce e puțin contradictoriu. Cum pot cunoaște legea, dacă n-o pot citi? Și după aia tu (instanță, reprezentantă a puterii executive a statului - n.red.) mă judeci și îmi spui că necunoașterea legii nu scuză nerespectarea ei. Dar dacă eu nu pot să cunosc legea, cum procedez?

Până când a venit un avocat într-o zi și a publicat arhiva Monitorului Oficial. A fost dat în judecată și a câștigat. Și de atunci s-a schimbat legea și documentele pot fi și descărcate.

Așa am pus și noi problema. Sigur, noi le datorăm tot respectul nostru autorilor. Evident că nimeni nu pretinde că noi am făcut munca (de a realiza dicționarele - n.red.). Ei (autorii -n.red.) au făcut munca de mers în teritoriu, de adunat vagoane întregi de notițe din toate satele pământului, de studiat și construit atlasele lingvistice.

Toată asta e o muncă titanică. Noi doar am considerat că putem ajuta munca asta să coboare dintr-un turn de fildeș, în care e făcută de inițiați pentru inițiați și doar crâmpeie mici ajung în rafturile librăriilor.

De ce? E bine să ne cunoaștem limba. E o dovadă de respect. Și e, până la urmă, și un bine practic. Ne putem înțelege mai bine, dacă avem un vocabular mai bogat cu toții”, este de părere Cătălin Frâncu.

Doar echipa dexonline poate afla ce cuvinte ai căutat

Un site vizitat zilnic de milioane de utilizatori ar putea câștiga destul de mulți bani din reclame, folosind Google AdSense.

Dar dexonline.ro a ales să renunțe la astfel de câștiguri și a renunțat la orice resurse de tip third-party (cum ar fi fonturile de la Google, casetă de comentarii Facebook etc.).

„Am mers în direcția aceea și am fost ok. Am avut un vîrf pe la finele lui 2015, când câștigam decent și puteam face mai multe. Dar s-au întâmplat două lucruri. Veniturile astea au scăzut. Randamentul acestor anunțuri e în continuă scădere. Și, în al doilea rând, noi nu ne simțim în regulă cu mecanismul acestor reclame.

Dacă cineva vine și zice: vreau să fac reclamă la detergentul cutare, putem pune un banner pe site. Nicio problemă! Dar dacă îmi spui: vreau să știu și cine a dat click, de la ce adresă IP, la ce oră și pe ce pagină... mi-a luat niște ani să înțeleg că asta nu e în regulă. Și n-am mai vrut să punem umărul, fie și cu o parte minoră, la construcția acestor dosare despre fiecare om”, a mai spus Cătălin Frâncu.

De ce consideră fondatorul dexonline că intimitatea utilizatorilor, pe Internet, este atât de importantă, dar și cum ce altceva vom mai găsi, în viitor, pe cel mai accesat dicționar online de limbă română află ascultând integral podcastul realizat de Gabriel Kolbay cu Cătălin Frâncu.

Unde asculți Digital Shift

Te poți abona la podcastul Digital Shift în SpotifyApple PodcastsGoogle PodcastsSoundCloudStitcherAnchorBreakerPocket CastsRadioPublicCastbox.


În fiecare zi scriem pentru tine. Dacă te simți informat corect și ești mulțumit, dă-ne un like. 👇