El projecte "VEGI": cap a la racionalització del vocabulari escolar

Lluís de Yzaguirre

Disponible en paper a De Yzaguirre, Ll. (1996) "El projecte VEGI: cap a la racionalització del vocabulari escolar", a Articles de Didàctica de la llengua i de la literatura, 9, pàg. 85-90, Serveis Pedagògics: Cevagraf, Barcelona.

Abstract

L'article introdueix primerament una proposta de constitució d'un corpus de llibres de text que permeti generar bases de dades lexicogràfiques del vocabulari escolar; segonament, presenta el treball d'anàlisi del lèxic i de racionalització del seu aprenentatge que es podria fer amb les bases lexicogràfiques obtingudes i la projecció d'aquesta racionalització en suport de les matèries altres que la llengua; finalment, esbossa les eines informàtiques que se n'haurien de derivar.

1. Objectiu i antecedents

A finals dels anys setanta em vaig veure involucrat en la confecció d'una col·lecció de llibres de text per a l'ensenyament del català a l'EGB. D'aquesta experiència en vaig treure la convicció que un dels aspectes menys sistematitzats a les programacions de llengua (evidentment, per manca d'informació que permeti establir uns criteris coherents) és l'adquisició del vocabulari . Una altra conseqüència, posterior en aquesta etapa, fou una mena de "voyeurisme" lèxic: la propensió a veure qualsevol text adreçat a escolars sota el biaix de l'adequació o no del seu vocabulari al dels destinataris de l'escrit i, en especial, la justificació o gratuïtat de la presència de terminologia no genèrica en els textos, fins i tot en els especialitzats.

El transcurs dels anys m'ha allunyat de les aules de primària en què em plantejava les qüestions suara introduïdes i m'ha dut a treballar en la constitució d'un corpus multilingüe de llenguatges especialitzats i, específicament, en el desenvolupament d'eines informàtiques aplicades al tractament del llenguatge (lingüicials). Aquests lingüicials permetran etiquetar els textos del corpus que estem constituint amb informació lingüística (bàsicament, el lema i la categoria gramatical), però tenen un disseny obert que permet que siguin aplicats a qualsevol mena de text, de forma que podran contribuir a l'estudi del vocabulari escolar. Això vol dir que, si sorgís el conjunt convenient d'entitats i persones interessades, avui fóra possible tirar endavant una iniciativa de racionalització del lèxic escolar ("Vocabulari Escolar Gradual Informatitzat", VEGI) que presentaré tot seguit.

2. Constitució d'un corpus bilingüe de llibres de text

Per raons de viabilitat, interessa treballar sobre textos que ja estiguin en suport magnètic; la manera més operativa és comprometre en l'operació una editorial del sector educatiu que aporti els continguts ja digitalitzats dels llibres de text de totes les assignatures de cada curs.

Aquests textos hauran de ser etiquetats estructuralment: caldrà marcar-ne les divisions bàsiques en unitats temàtiques i altres divisions necessàries com les de paràgraf i frase. Posteriorment, seran etiquetats lingüísticament: de cada paraula serà possible saber-ne el lema (entrada de diccionari) i la categoria gramatical. Per fer intel·ligible la necessitat d'aquestes operacions, diguem que paraules com "costa", "riu", "serra", "país", "collades" o "vessant" poden ser pròpies d'un text sobre geografia, però poden no tenir-hi res a veure (vindrien, respectivament, de "costar", "riure", "serrar, "pair", "collar" i "vessar"), i només si resolem aquestes ambigüitats podem aspirar a tirar endavant la iniciativa que ens ocupa ací.El resultat de totes aquestes operacions serà un corpus bilingüe de llibres de text (CoBLliT) a partir del qual s'extraurà el VEGI.

Per múltiples motius, interessa confrontar tant els textos com els productes que se'n derivaran (llistats de vocabulari, de locucions, de termes específics de cada matèria...), entre el català i el castellà. Doncs, caldrà que les eines informàtiques usades en l'etiquetatge (tant l'estructural com el lingüístic) tinguin versió en ambdues llengües. Això implica que, fins i tot abans de posar en marxa el projecte, hi ha un volum de feina entre etiquetatge estructural i lingüístic que el fa prohibitiu per a iniciatives individuals (com fóra, v.g., una tesi doctoral).

3. Estratificació del vocabulari

Un cop constituït (digitalitzat i etiquetat) el CoBLliT, se'n generaran dues bases de dades lexicogràfiques, una per a cada llengua, en què cada entrada permetrà avaluar el rendiment del mot dins del corpus: primera ocurrència en sentit general; primera ocurrència en sentit especialitzat (si en té); aparició de nous significats...

A més, les dues bases de dades estaran vinculades, de manera que serà possible estudiar la interacció del vocabulari de cada llengua: quan els mots en qüestió es reforcen, quan s'interfereixen, quan es dóna el cas que ha de ser introduït necessàriament en una llengua un mot per mor d'alguna dificultat ortogràfica que cal treballar, mentre que el seu equivalent en l'altra no apareixeria fins més endavant... de forma que sigui possible dissenyar estratègies globals d'adquisició del vocabulari, entenent per global tant el fet d'integrar supralingüísticament els coneixements morfològics, semàntics i d'altres mobilitzats pel lèxic de cada llengua com el fet de contemplar les necessitats terminològiques de totes les disciplines en què es veu involucrat el discent, independentment de la llengua en què es vehiculin.

Que un mot aparegui al CoBLlit no implica que l'hàgim de considerar adequat al nivell educatiu en què es troba. Això vol dir que un especialista de cada nivell educatiu haurà de decidir si aquell mot constitueix una dificultat assumible o excessiva; això es determinarà secundàriament pels requeriments de les programacions de totes les assignatures del nivell (vegeu infra) i primàriament per la possibilitat de definir l'accepció corresponent del mot amb un vocabulari controlat propi del nivell o mitjançant imatges intel·ligibles per infants del nivell.

Doncs, el VEGI serà, bàsicament, una base de dades lexicogràfiques on cada entrada estarà associada a una llista de descriptors temàtics que correspondran bàsicament a les àrees de coneixement que es contemplin en el treball (en principi, les assignatures) i cada descriptor d'una entrada estarà associat a una unitat temporal, que hauria de ser una part d'un curs (un trimestre, una avaluació, un projecte de treball, etc.) en què se suposa que és introduïda.

Cada entrada tindrà, a més, un paquet d'informacions generals que vinculin els diferents aspectes lingüístics de la paraula amb les unitats temporals de la programació de llengua on es treballin els aspectes corresponents: dificultats ortogràfiques, gramaticals, d'ús, significat, sinonímia, antonímia...

4. Confrontació d'estrats i programacions de llengua

Les programacions de llengua condicionen de diverses formes l'aparició del vocabulari:

per dificultats gramaticals associades: si s'ha de treballar la ce trencada, la ela geminada, l'accent diacrític, etc., ens veiem obligats a introduir mots que d'altra manera potser no usaríem fins més endavant;
el mateix pot passar amb els recursos morfològics implicats en la formació dels mots: un determinat sufix o prefix o una dificultat relacionada amb una desinència verbal;
per condicionants lèxics: un mot es necessita per entendre'n d'altres, per treballar la sinonímia, l'antonímia...

Les bases de dades lexicogràfiques que s'elaboraran en el marc del projecte VEGI permetran racionalitzar al màxim l'aparició del vocabulari en el procés d'aprenentatge en funció dels requeriments derivats de les programacions.

5. Extracció i sistematització de la terminologia

Molt sovint es dóna la paradoxa que, mentre a l'assignatura de llengua es fa un esforç per evitar la complexitat gratuïta del vocabulari, les altres disciplines incorporen molts termes de dificultat manifesta per requeriments, no sempre justificats, del seu temari. El projecte VEGI pretén oferir la possibilitat de detectar automàticament tota la terminologia d'una matèria o d'un grup de matèries i fer-ne un seguiment que permeti jerarquitzar els termes segons la seva persistència en textos posteriors o la seva (in)dispensabilitat en la definició d'altres termes.

De resultes del treball anterior, haurà de ser possible:-

oferir pautes per a l'estructuració dels continguts de les diverses disciplines i assignatures que tinguin en compte la jerarquia dels termes a l'hora de jerarquitzar els conceptes:

* es poden identificar els termes comuns en diverses disciplines (física, matemàtica, geografia), de manera que es puguin evitar les duplicacions i, fins i tot, les discrepàncies inconscients en la presentació dels continguts d'aquestes matèries;

* es pot establir una progressió d'aprenentatge dels conceptes disciplinaris o interdisciplinaris, segons les relacions de depència que tinguin uns termes respecte els altres (per exemple, és impossible aprendre el concepte de delta si abans no s'han adquirit les nocions de riu i sediment, de la mateixa manera que per definir el primer terme es necessiten els altres dos);

suggerir l'estalvi d'aquells termes de molt baix rendiment en el CoBLliT i d'escassa importància en la jerarquia conceptual de la matèria;

classificar els termes indispensables segons la seva dificultat per a ser definits amb un vocabulari controlat o a través d'imatges;
classificar-los també en actius i passius, segons si es proposa que l'alumne els hagi simplement de comprendre i, doncs, incorporar de moment o per sempre només al seu vocabulari passiu o si es pretén que l'alumne els usi en les treballs; en el cas dels termes que es proposen per enriquir el vocabulari actiu, caldrà extreure'n les pautes d'ús del CoBLliT i sistematitzar-les: p.e., si es pretén que el discent escrigui sobre les erupcions volcàniques, no n'hi ha prou que usi el mot "erupció", sinó que cal que sàpiga que els volcans "entren en erupció" o "fan erupció" però no "surten d'erupció" ni "donen erupció" ni "ingressen en erupció" ni "erupcionen";
transferir a l'assignatura de llengua el seguiment d'aquells termes que siguin d'interès per a un conjunt ampli d'assignatures.

6. Extracció de l'onomàstica

L'onomàstica és la germana pobra del processament automàtic de la llengua. Generalment, quan es tracten textos informàticament se sol ignorar tota paraula desconeguda si va introduïda per majúscules.

Però el grau de robustesa d'un sistema d'etiquetatge lingüístic de corpus pot dependre de la qualitat de la informació que es posseeixi sobre els noms propis (de persones, d'organismes, de poblacions, de regions...), especialment en alguna mena de textos, com els de geografia o els d'història (general, de la literatura, de la filosofia...).

Doncs, la sistematització de l'onomàstica al CoBLliT és una necessitat instrumental del projecte VEGI; però, a més, és susceptible de ser rendibilitzada amb d'altres utilitats:

des d'un punt de vista lingüístic, serà interessant poder treballar les diferències en les denominacions geogràfiques o en la transliteració de determinats noms de persona;
també permetrà treballar la creativitat lèxica associada a l'onomàstica (gentilicis o bé mots del tipus "hegelià", o "marxista")
des d'un punt de vista epistemològic, permetrà establir pautes de mesura del pes proporcional del lèxic en el conjunt de coneixements adquirits, tant per facilitar mecanismes d'avaluació de l'aprenentatge del lèxic com per mesurar la densitat de les informacions no lèxiques contingudes en un text amb l'objectiu de suggerir, si s'escau, el filtratge d'una part dels noms propis quan n'hi hagi un excés.

7. Validador VEGI

El resultat més immediat del projecte VEGI (sense comptar amb el CoBLliT i amb les bases de dades lexicogràgiques VEGI, que ja seran per si mateixos materials de recerca interessants) serà una aplicació informàtica per validar l'adequació d'un text al VEGI: caldrà especificar el nivell i la matèria del text i el validador marcarà totes les paraules del text que no s'hi ajusten. El primer beneficiari del producte serà l'editorial que hagi patrocinat el projecte, i, segons el grau de participació pública, la comunitat educativa en general; també és previsible un ús del validador VEGI amb finalitats comercials, en les condicions que es plantegin a la convocatòria del projecte.

8. Altres productes resultants

Dels recursos lingüístics acumulats durant el projecte VEGI se'n podran obtenir diversos tipus de publicacions "en paper" que aportaran noves eines a la comunitat educativa:

diccionaris específics per a cada estrat del vocabulari, amb el lemari adequat i amb definicions controlades quant al lèxic;
orientacions lingüístiques de cara a la introducció de la terminologia específica d'una matèria;
dels productes anteriors se'n podran obtenir tant versions monolingües com bilingües;
nomenclatura enciclopèdica bilingüe amb tota l'onomàstica d'una matèria, d'un estrat cronològic o global.

9. Bibliografia

SINCLAIR, JOHN.Looking up an account of the COBUILD Project in lexical computing and the development of the Collins COBUILD English Language Dictionary, Londres: Collins, 1988.

SINCLAIR, JOHN.Creación de corpus. a "Las industrias de la lengua", Madrid, Pirámide, 1991.