La scurt timp după terminarea facultății, 3 tineri și-au înființat propria companie, numită Vatis Tech, cu ambiția de a crea o platformă care să transcrie, după dictare, în limba română, mai bine decât o fac soft-urile multinaționalelor omniprezente, cum sunt Apple și Microsoft.
În 2 ani, au obținut finanțare, și-au dezvoltat produsul și au ieșit cu el pe piață. Astăzi îl folosesc bănci, tribunale, agenții de monitorizare de presă și televiziuni.
Despre cum a învățat platforma Vatis Tech limba română, cum funcționează transcrierea asistată de inteligență artificială și de ce s-ar putea să uităm să scriem de la tastatură a povestit, pe larg, la Digital Shift, cofondatorul Vatis Tech, Adrian Ispas.
(De la 01:37) noi am început în 2020 și am luat decizia să intrăm pe piața asta fix din perspectiva acurateții. (...) Am început împreună cu Alex, un coleg de la fostul loc de muncă și cu Manu, un coleg din facultate.
Majoritatea competitorilor de pe piață sunt companii big tech care s-au focusat mai degrabă pe limba engleză (și nu au acuratețe în limba română - n.red.).
(...) Nu poți să zici, în limba română «Hei, Siri (asistentul virtual creat de Apple și care poate fi utilizat cu iPhone – n.red.), vreau să mă duc la aeroport sau la gara”, iar Siri să îți cheme un taxi. În limba engleză poți face asta, dar în română nu (din cauză că Siri nu are suficiente cunoștințe de limba română ca să înțeleagă ce-i ceri – n.red.).
Inițial, ideea noastră, cea cu care am început, era mai degrabă să creăm o platformă de management al audio-ului dedicată jurnaliștilor sau creatorilor de podcast.
Și practic inclusiv noi foloseam, în spate, un n-gin de speech recognition (o tehnologie - n.red.) de la unul dintre jucători mari de big tech din piață. Însă acuratețea pe limba română era destul de de slabă. Adică în jur de 75 %. Ceea ce înseamnă că transcriptul nu putea fi folosit, de fapt.
(de la 11:32) În momentul de față, acuratețea medie pe care o scoate sistemul nostru (Vatis Tech -n.red ) este de 97% (...) Și poate să ajungă inclusiv la 99% sau chiar 100%, dacă e un material de calitate audio destul de bun”.
Cum reușește platforma să scrie după dictare?
(De la 3:51) Inputul (ceea ce trebuie să introduci în sistem - n.red.) este vocea umană, care poate fi dată în mai multe feluri. Fie real-time, adică un fel de dictare, fie un fișier audio preînregistrat (...). Apoi input-ul ăsta audio e transformat, în funcție de diverse modele matematice. Și se extrag diverse feature-uri (caracteristici – n.red) din el.
Aici e deja o teorie de machine learning despre cum se procesează în spate. Iar apoi e o ecuație foarte, foarte mare care transformă acest input audio în text, cu anumite probabilități.
(...) e de fapt un text cu o anumită probabilitate, la nivel de literă”.
Când transcrie, știe sistemul să facă diferența între cuvinte care se pronunță la fel, dar se scriu diferit, în anumite situații? Spre exemplu poate scrie platforma corect după dictare „«Numai» 5 lei mi-au rămas în portofel” și „«Nu mai» veni, anulăm înregistrarea”? Face diferența între substantivul propriu „Sanda” - care e un nume de persoană - și cel comun „sanda”, care indică o încălțare, la mijlocul unei propoziții?
(De la 13:08) Da, va ști. Și lucrul ăsta îl știe datorită unui layer (unui nivel – n.red) de prostprocesare, care se întâmplă după ce are loc efectiv transcrierea (...).
Sunt mai mulți algoritmi de inteligență artificială, care vin cumva în secvență, unul după altul.
Primul și cel mai important algoritm e cel de transcriere.
În paralel cu el, rulează un alt algoritm, de separare pe vorbitori. În cazul de față – dacă transcriem podcastul acesta, la care participăm – el va face o separare pe doi vorbitori și ne va spune în permanență: uite, aici vorbește Adi, aici vorbește Gabriel.
Apoi, după ce se termină aceste procese, intră un alt layer (nivel de procesare - n.red.), care se ocupă de postprocesări. Care îți arată că, uite, aici e un substantiv propriu, aici e un substantiv comun. Aici trebuie să pun virgulă, punct sau semnul întrebării. Aici trebuie să convertesc la o valoare numerică, pentru că e o mențiune despre o anume dată (din calendar - n.red)”.
Cât de repede transcrie inteligența artificială?
(de la 14:33) „Platforma transcrie mult mai repede decât un om. Pe medie, în principiu, ca să transcriem o oră de audio, tehnologie noastră are nevoie de circa 20% din timpul înregistrării.
În schimb, dacă folosim platforma de cloud – mai ales după optimizările pe care le-am făcut în ultima perioadă – am reușit să scotem și transcriere în 13% din timpul înregistrării. (asta înseamnă că sistemul poate transcrie o oră de conversație chiar și în mai puțin de 8 minute, în anumite condiții - n.red.).
(de la 17:26) Ultimele statistici arată undeva la peste 2 milioane de minute transcrise.
În cloud sau doar pe serverele clientului?
(de la 15:20) Există două moduri de a utiliza tehnologia noastră. „On cloud”, care e un sistem total administrat de noi și „on premise”, care e un sistem administrat de clientul final. De obicei, partea de „on premise” e solicitat pe zona de date foarte sensibile. Dacă ne gândim la departamente de Defence (Apărare – n.red.) sau servicii secrete sau lucruri de genul, cu care am avut discuții. Toate zonele astea preferă mai degrabă un deployment (activare – n.ed.) «on premise»”.
Din ce domenii provin clienții care transcriu deja cu Vatis Tech?
(de la min 25:55) „Primul domeniu pe care pot să-l numesc e zona de monitorizare media. Adică în momentul de față tehnologia noastră e folosită de toate companiile de monitorizare media din România. Apoi e zona de broadcasting și televiziune. Avem clienți și din zona asta de televiziuni care folosesc tehnologia. Mai avem de asemenea clienți din zona de de banking care folosesc tehnologia noastră pentru transcrierea ședințelor interne. Zona guvernamentală.
Avem clienți din zona Curților de apel, care folosesc pentru transcrierea acelor ședințe de judecată și practic îi ajută pe grefieri să economisească mult mai mult timp decât să stea ei să facă transcript-ul de la zero. Pur și simplu doar mai trec o dată prin el și fac eventualele corecturi”.
Va învăța sistemul Vatis Tech și alte limbi?
(de la min 20:24) „Da, avem mai multe limbi pe shortlist pe care o să începem să le implementăm. Ne uităm la zona de Portugalia, Franța, Spania, Turcia, Polonia (țări ale căror limbi Vatis Tech urmează să le învețe, la fel de bine cum a învățat și limba română - n.red.).
În viitor, vom înlocui scrisul de la tastatură cu interacțiunea vocală?
(de la min 33:43) E o tranziție oarecum naturală, noi, ca oameni, să interacționăm prin intermediul vocii. E mult mai natural pentru noi, adică ne simțim mult mai natural și ăsta va fi cumva viitorul.
Interacțiunea cu o mașină va fi făcută foarte mult prin intermediul vocii, cum se întâmplă în momentul de față cu anumiți asistenți virtuali (Siri de la Apple, Alexa de la Amazon etc).
Pe partea de minusuri, nu știu dacă vom uita să scriem sau nu la tastatură. Probabil că vom uita să scriem. Însă iarăși depinde cât de mult ne ajută sau nu acest stil. De exemplu, scrisul de mână. Acum, cum ziceai și tu, nu e fezabil să mergi la facultate să îți scrii după dictare un curs, când poți să ai o înregistrare a acelui curs, un transcript generat automat și pur și simplu tu să te focusezi pe lucrurile care chiar contează.
(de la min 35:16) În 10 ani probabil va fi un mix, să zicem jumate cu dictare, jumate cu scris de mână (incluzând aici și scrisul cu ajutorul tastaturii - n.red.), pentru că sunt anumite lucruri pe care în continuare va fi nevoie să le scrii de mână. Pentru că, nu știu, probabil îți expui altfel ideile când le scrii de mână. Însă foarte mult din interacțiune sigur va fi făcută prin dictare, prin voce.
Multe alte detalii despre cum funcționează Vatis Tech, despre cum îl puteți accesa, dar și despre cum - cu o investiție de circa 70.000 de euro poate învăța o limbă nouă - aflați ascultând integral podcastul realizat de Gabriel Kolbay cu Adrian Ispas.