CORPUSLAD
NA REGOETA TESTUÈLA PER L STUDIE del LENGAZ
Tel chèder del projet TALES sul tratament automatich del lengaz ladin, metù a jir del 1999 en colaborazion co l’Istituto per la ricerca scientifica e tecnologica (IRST) de Trent, l’é stat metù ensema regoetes organiches de tesć ladins per standard e ti idiomes de val.
Chesta regoeta, che à inom CORPUSLAD, la è stata dò integrèda te la piataforma TALL per otimisèr l'interazion anter i desvalives struments linguistics desponiboi. I corpora che se pel consultèr chiò (de duta la variantes ladines dolomitiches) i tol ite en dut presciapech 15.500.000 paroles. I tesć cernui cour n trat de temp che va da l’800 enscin anchecondì, per la maor pèrt aboncont se trata de tesć scric te la seconda metà del XX sécol. Per aer l dret balanzament anter la desvaliva sorts, l’é stat metù ite tant tesć leterères (prosa, poejìa, teater, memorialistica, tesć sul folclor e la usanzes, libres de orazion), che tesć no leterères (tesć giuridics e aministratives, formulères, tesć de informazion giornalistica, avisc e inserac, tesć de divulgazion scientifica e culturèla, tesć de scola).
Te chest moment l corpus fascian l’é chel lurà fora più de fin. Sia struturazion, che dèsc per vigni test na lingia de informazions utoles (data, origin, sort testuèla, autor e c.i.), la permet de spezifichèr la enrescida per otegnir l mior resultat.
I corpora pel esser consulté tras l concordancer, n strument aposta che se ouc dantdaldut ai linguisć e a duc chi che studia l ladin; con chest strument se pel analisèr i tesć chierian concordanzes, colocazions e frequenzes te la modalità KWIC (Keyword In Context, che vel dir che la parola chierida la vegn moscèda te sie contest).