Când a constatat cât de greu îi era să găsească datele pentru cercetarea la care lucra, la doctorat, Cosmin Boțoroga a încercat întâi soluții evidente, precum Chat GPT și Perplexity.
N-au fost suficient de riguroase. Și și-a dat repede seama că frustrarea lui e una comună, în rândul cercetătorilor. Aici a văzut oportunitatea.
A fondat Data Sweep, o platfomă care oferă date curate și ușor de utilizat. O testează acum zeci de universități din România și cercetători din întreaga lume, semn că poate deveni o soluție globală.
Am discutat la Digital Shift cu Cosmin Boțoroga despre cât de mult te poate ajuta tehnologia să înveți din date, la facultate și în timpul studiilor postuniversitare.
Am vorbit și despre limitele tehnologiei și marea problemă pe care aceasta nu reușește încă să o rezolve, în învățământ. E un risc de care nu ne poată pot păzi nici Google, nici Chat GPT.
Întregul interviu de podcast, aici:
Mai jos, câteva dintre declarațiile lui Cosmin Boțoroga la Digital Shift și minutele de la care le puteți asculta:
„Am nevoie de ceva mai precis decât Chat GPT” (de la min 06:23):
„Era februarie 2024, iar coordonatoarea doctoratului meu, doamna profesoară Alexandra Horobeț, mi-a sugerat să mă ocup de găsirea indicatorilor (date, cum ar fi Produsul Intern Brut al unor țări – n.red.) pentru o cercetare pe care o efectuăm împreună.
Și mi-am dat seama în acel moment că mi este destul de greu să mă duc la diferiți data providers să descarc acei indicatori.
Pentru că la început tu ești într-o etapă de explorare, deoarece nu știi exact care sunt indicatorii pe care tu îi vei adăuga în cercetare. Știi doar tematica. Și explorezi, să vezi care sunt indicatorii disponibili.
După ce ai stabilit care sunt indicatorii și i-ai văzut pe diferite platforme, îi descarci. Și te trezești cu 10 excel-uri. Pe care trebuie să le pui într-un singur excel, ca să începi etapa de analiză propriu-zisă a datelor.
De ce nu pot, spre exemplu, să folosesc Chat GPT sau Perplexity sau o altă platformă ca să facă treaba asta? Vorbim despre acuratețe. Dacă îți concatenează (combină – n.red.) indicatorii cu o precizie de 70%, niciun jurnal științific nu-ți va accepta articolul pe care îl scrii pe baza acelor indicatori.
În plus, imaginează-ți că cercetările acestea stau la baza fundamentării anumitor decizii. Fie ele decizii luate de anumite instituții publice, fie decizii luate de anumite organizații sau business-uri.
Și nu ai vrea să existe acolo un disclaimer: știi, există posibilitatea să avem o rată de eroare de 30% cu privire la rezultate! N-ai cumpăra un produs bazat pe o asemenea cercetare! N-ai implementa o asemenea politică fiscală sau monetară, cu o rată de eroare atât de mare!”
Cui i-ar mai trebui? Primul pas spre business (de la min 09:44):
„Noi (Cosmin și mai mulți colegi care se ocupă de programare – n.red.) n-am trecut direct la dezvoltarea acestei platforme, ci am trecut printr-un proces de validare și de discuție cu potențialii noștri utilizatori.
S-a întâmplat în perioada martie-mai 2024, când noi am participat la programul Innovation Labs. Acolo am făcut primul MVP (minimum viable product – cea mai simplă variantă a unui produs funcțional -n.red.). Și primele teste cu utilizatori.
Sunt un far pentru studenți și cercetătorii din universități, programele astea gen Innovation Lab. Pentru că acolo își pot testa ideile și pot primi mentorat de la cei mai buni oameni din diverse industrii”.
Ce face Data Sweep (de la min 02:48):
„Platforma extrage date de la diferiți data providers – adică Eurostat, Banca Mondială, Federal Reserve Economic Data (FRED) din SUA și Banca Centrală Europeană - pe care noi i-am integrat în cadrul platformei.
Și îți oferă apoi date verificate și sigure, într-un standard unic.
Ca volum, platforma oferă circa 3,1 milioane de indicatori cantitativi (în funcție de domeniu, de la date demografice despre natalitate și mortalitate, la date de inflație și multe, multe altele - n.red.)
Avem metadatele (informații despre toate datele disponibile - n.red.) în cloud. Și când tu accesezi un indicator, se extrag și datele numerice. Nu ținem totul în cloud pentru că volumele de date sunt foarte mari și ar costa foarte mult.
Cum funcționează: îți pui tematica la noi pe platformă, iar platforma îți caută indicatorii în cele patru baze de date. Sau îți poți selecta tu în ce baze de date să-ți caute.
Și îți dă toți acești indicatori relevanți.
Tu ți-i selectezi. Ți se exportă instant, într-un singur Excel, toți indicatorii, într-un singur sheet, gata de analiză.”
Cum faci datele să se potrivească, fără să pierzi nimic (de la min 11:41):
„Ce am făcut în cadrul Data Sweep pentru a menține acuratețea de 100% a indicatorilor în momentul în care acești indicatori se combină, se concatenează?
Am luat fiecare data provider în parte. Spre exemplu Eurostat: am trecut datele din standardul lor în standardul Data Sweep. Apoi, cu Banca Mondială, în standardul Data Sweep.
De ce e important: poate că Eurostat îți scrie „Republica Turcă”, iar Banca Mondială îți scrie doar „Turcia”? Vor să spună același lucru? Vei primi datele în format unic, combinate.
Cum se poate face asta ... păi, e meritul echipei de programare. Trebuie să citești fiecare documentație și să urmezi anumite proceduri tehnice. Programatorii Data Sweep au făcut asta.
Și după, au făcut niște teste. Și au confirmat că gradul de acuratețe e de 100%.”
Viitorul educației. Ce mare problemă nu rezolvă AI? (de la min 53:25):
„Nu mă aștept ca lucrurile să se schimbe foarte mult pe partea de cercetare, în sensul în care tot trebuie să citești articole științifice, tot trebuie să le găsești, tot trebuie să-ți cauți date și să le analizezi.
Începe să-mi fie frică de modalitatea în care noile generații abordează partea de cercetare.
Aș spune că există o abordare superficială și asta văd la studenți (din ciclul de licență - n.red.) mai mult.
Ei ar vrea, dacă se poate, să le faci și lucrarea de licență și de disertație pe platformă. Ceea ce nu este etic și moral.
Noi suntem împotriva unor astfel de lucruri. Și ar trebui să existe o mișcare la nivel internațional pentru că aici vorbim de gradul de autonomie a studentului.
Acum este doar student, într-adevăr. Dar în anul 2040, ghiciți ce o să fie? Poate o să fie profesor! Dacă el este învățat să-și facă bibliografia cu Chat GPT și să folosească în lucrări text de acolo, pe care să-l adauge prin alte programe de parafrazare și așa mai departe ... care o să fie gradul lui de autonomie? Omul ăla e cel care va forma politicieni, economiști, psihologi, bancheri și așa mai departe.
Aici, lucrurile nu sunt musai roz!”
