L'article introdueix primerament una proposta de constitució d'un corpus de llibres de text que permeti generar bases de dades lexicogràfiques del vocabulari escolar; segonament, presenta el treball d'anàlisi del lèxic i de racionalització del seu aprenentatge que es podria fer amb les bases lexicogràfiques obtingudes i la projecció d'aquesta racionalització en suport de les matèries altres que la llengua; finalment, esbossa les eines informàtiques que se n'haurien de derivar.
A finals dels anys setanta em vaig veure involucrat en la confecció d'una col·lecció de llibres de text per a l'ensenyament del català a l'EGB. D'aquesta experiència en vaig treure la convicció que un dels aspectes menys sistematitzats a les programacions de llengua (evidentment, per manca d'informació que permeti establir uns criteris coherents) és l'adquisició del vocabulari . Una altra conseqüència, posterior en aquesta etapa, fou una mena de "voyeurisme" lèxic: la propensió a veure qualsevol text adreçat a escolars sota el biaix de l'adequació o no del seu vocabulari al dels destinataris de l'escrit i, en especial, la justificació o gratuïtat de la presència de terminologia no genèrica en els textos, fins i tot en els especialitzats.
El transcurs dels anys m'ha allunyat de les aules de primària en què em plantejava les qüestions suara introduïdes i m'ha dut a treballar en la constitució d'un corpus multilingüe de llenguatges especialitzats i, específicament, en el desenvolupament d'eines informàtiques aplicades al tractament del llenguatge (lingüicials). Aquests lingüicials permetran etiquetar els textos del corpus que estem constituint amb informació lingüística (bàsicament, el lema i la categoria gramatical), però tenen un disseny obert que permet que siguin aplicats a qualsevol mena de text, de forma que podran contribuir a l'estudi del vocabulari escolar. Això vol dir que, si sorgís el conjunt convenient d'entitats i persones interessades, avui fóra possible tirar endavant una iniciativa de racionalització del lèxic escolar ("Vocabulari Escolar Gradual Informatitzat", VEGI) que presentaré tot seguit.
Per raons de viabilitat, interessa treballar sobre textos que ja estiguin en suport magnètic; la manera més operativa és comprometre en l'operació una editorial del sector educatiu que aporti els continguts ja digitalitzats dels llibres de text de totes les assignatures de cada curs.
Aquests textos hauran de ser etiquetats estructuralment: caldrà marcar-ne les divisions bàsiques en unitats temàtiques i altres divisions necessàries com les de paràgraf i frase. Posteriorment, seran etiquetats lingüísticament: de cada paraula serà possible saber-ne el lema (entrada de diccionari) i la categoria gramatical. Per fer intel·ligible la necessitat d'aquestes operacions, diguem que paraules com "costa", "riu", "serra", "país", "collades" o "vessant" poden ser pròpies d'un text sobre geografia, però poden no tenir-hi res a veure (vindrien, respectivament, de "costar", "riure", "serrar, "pair", "collar" i "vessar"), i només si resolem aquestes ambigüitats podem aspirar a tirar endavant la iniciativa que ens ocupa ací.El resultat de totes aquestes operacions serà un corpus bilingüe de llibres de text (CoBLliT) a partir del qual s'extraurà el VEGI.
Per múltiples motius, interessa confrontar tant els textos com els productes que se'n derivaran (llistats de vocabulari, de locucions, de termes específics de cada matèria...), entre el català i el castellà. Doncs, caldrà que les eines informàtiques usades en l'etiquetatge (tant l'estructural com el lingüístic) tinguin versió en ambdues llengües. Això implica que, fins i tot abans de posar en marxa el projecte, hi ha un volum de feina entre etiquetatge estructural i lingüístic que el fa prohibitiu per a iniciatives individuals (com fóra, v.g., una tesi doctoral).
Un cop constituït (digitalitzat i etiquetat) el CoBLliT, se'n generaran dues bases de dades lexicogràfiques, una per a cada llengua, en què cada entrada permetrà avaluar el rendiment del mot dins del corpus: primera ocurrència en sentit general; primera ocurrència en sentit especialitzat (si en té); aparició de nous significats...
A més, les dues bases de dades estaran vinculades, de manera que serà possible estudiar la interacció del vocabulari de cada llengua: quan els mots en qüestió es reforcen, quan s'interfereixen, quan es dóna el cas que ha de ser introduït necessàriament en una llengua un mot per mor d'alguna dificultat ortogràfica que cal treballar, mentre que el seu equivalent en l'altra no apareixeria fins més endavant... de forma que sigui possible dissenyar estratègies globals d'adquisició del vocabulari, entenent per global tant el fet d'integrar supralingüísticament els coneixements morfològics, semàntics i d'altres mobilitzats pel lèxic de cada llengua com el fet de contemplar les necessitats terminològiques de totes les disciplines en què es veu involucrat el discent, independentment de la llengua en què es vehiculin.
Que un mot aparegui al CoBLlit no implica que l'hàgim de considerar adequat al nivell educatiu en què es troba. Això vol dir que un especialista de cada nivell educatiu haurà de decidir si aquell mot constitueix una dificultat assumible o excessiva; això es determinarà secundàriament pels requeriments de les programacions de totes les assignatures del nivell (vegeu infra) i primàriament per la possibilitat de definir l'accepció corresponent del mot amb un vocabulari controlat propi del nivell o mitjançant imatges intel·ligibles per infants del nivell.
Doncs, el VEGI serà, bàsicament, una base de dades lexicogràfiques on cada entrada estarà associada a una llista de descriptors temàtics que correspondran bàsicament a les àrees de coneixement que es contemplin en el treball (en principi, les assignatures) i cada descriptor d'una entrada estarà associat a una unitat temporal, que hauria de ser una part d'un curs (un trimestre, una avaluació, un projecte de treball, etc.) en què se suposa que és introduïda.
Cada entrada tindrà, a més, un paquet d'informacions generals que vinculin els diferents aspectes lingüístics de la paraula amb les unitats temporals de la programació de llengua on es treballin els aspectes corresponents: dificultats ortogràfiques, gramaticals, d'ús, significat, sinonímia, antonímia...
Les programacions de llengua condicionen de diverses formes l'aparició del vocabulari:
Les bases de dades lexicogràfiques que s'elaboraran en el marc
del projecte VEGI permetran racionalitzar al màxim
l'aparició del vocabulari en el procés d'aprenentatge
en funció dels requeriments derivats de les programacions.
Molt sovint es dóna la paradoxa que, mentre a l'assignatura de llengua es fa un esforç per evitar la complexitat gratuïta del vocabulari, les altres disciplines incorporen molts termes de dificultat manifesta per requeriments, no sempre justificats, del seu temari. El projecte VEGI pretén oferir la possibilitat de detectar automàticament tota la terminologia d'una matèria o d'un grup de matèries i fer-ne un seguiment que permeti jerarquitzar els termes segons la seva persistència en textos posteriors o la seva (in)dispensabilitat en la definició d'altres termes.
De resultes del treball anterior, haurà de ser possible:-
L'onomàstica és la germana pobra del processament automàtic de la llengua. Generalment, quan es tracten textos informàticament se sol ignorar tota paraula desconeguda si va introduïda per majúscules.
Però el grau de robustesa d'un sistema d'etiquetatge lingüístic de corpus pot dependre de la qualitat de la informació que es posseeixi sobre els noms propis (de persones, d'organismes, de poblacions, de regions...), especialment en alguna mena de textos, com els de geografia o els d'història (general, de la literatura, de la filosofia...).
Doncs, la sistematització de l'onomàstica al CoBLliT és una necessitat instrumental del projecte VEGI; però, a més, és susceptible de ser rendibilitzada amb d'altres utilitats:
El resultat més immediat del projecte VEGI (sense comptar amb el CoBLliT i amb les bases de dades lexicogràgiques VEGI, que ja seran per si mateixos materials de recerca interessants) serà una aplicació informàtica per validar l'adequació d'un text al VEGI: caldrà especificar el nivell i la matèria del text i el validador marcarà totes les paraules del text que no s'hi ajusten. El primer beneficiari del producte serà l'editorial que hagi patrocinat el projecte, i, segons el grau de participació pública, la comunitat educativa en general; també és previsible un ús del validador VEGI amb finalitats comercials, en les condicions que es plantegin a la convocatòria del projecte.
Dels recursos lingüístics acumulats durant el projecte VEGI se'n podran obtenir diversos tipus de publicacions "en paper" que aportaran noves eines a la comunitat educativa:
SINCLAIR, JOHN.Looking up an account of the COBUILD Project in lexical computing and the development of the Collins COBUILD English Language Dictionary, Londres: Collins, 1988.
SINCLAIR, JOHN.Creación de corpus. a "Las industrias de la lengua", Madrid, Pirámide, 1991.