Els lingüicials del corpus UB (1)

Lluís de Yzaguirre i Maura

Disponible en paper a De Yzaguirre, Ll. (1996) "Els lingüicials del corpus UB", a Boix, E.; Lorente, M.; Lloret, M.R. i Ll. Payrató (ed.) Corpus corpora. Actes del I i II Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2), pàg. 297-304, PPU-secció de Lingüística Catalana de la Universitat de Barcelona, Barcelona.

1. Presentació

En el moment d'iniciar el Corpus UB, teníem clar que l'objectiu immediat era la recol·lecció dels materials i que progressivament anirien creixent les necessitats de manipulació i processament d'aquests materials. Érem conscients que disposàvem d'un conjunt d'eines molt limitat, però coneixíem l'existència de nombroses iniciatives similars més avançades que la nostra, de les quals esperàvem que produïssin o fessin produir aviat lingüicials com els que podíem necessitar.

Però no podríem esperar que programes estàndard resolguessin tots els nostres requeriments, especialment aquells específics del català, com els relacionats amb la lematització. En la mesura que les seves modestes possibilitats li ho permetien, el DFCUB va iniciar el desenvolupament de lingüicials ajustats a les seves necessitats, tasca que em fou encomanada i que es va traduir en els programes, que presentarem suara, destinats a la manipulació i recuperació de veu digitalitzada, realitzats entre 1990 i gener de 1995; un segon paquet de lingüicials ha estat desenvolupat des del febrer de 1995, en què vaig integrar-me a l'Institut de Lingüística Aplicada de la Universitat "Pompeu Fabra" (IULA), bo i mantenint-me com a membre de l'equip de recerca del Corpus UB; es tracta, bàsicament, dels lingüicials que lematitzen, etiqueten i, ara per ara parcialment, desambigüen, produïts amb l'ajut de tot l'equip de l'àrea de Corpus de l'IULA a partir dels programes i dades generals entre 1980 i 1990 per a la meva tesi doctoral sobre l'estructura sil·làbica del català central.

Per tal com el DFCUB es troba integrat a la Xarxa temàtica de lingüística aplicada pilotada per l'IULA i aquest a la Xarxa temàtica sobre la variació pilotada pel DFCUB, està garantida la continuïtat del suport informàtic al Corpus UB per part de l'IULA, a través del Grup d'Enginyeria Lingüística, de recent estructuració, que tinc el gaudi de coordinar.

L'esperit que ha presidit l'elaboració dels lingüicials del Corpus UB ha estat sempre el de l'eficàcia a curt termini dins la subsidiarietat davant de qualsevol aplicació general o específica que pugui fer una part o el tot d'alguna de les feines necessàries. O sia que si alguna operació es podia resoldre usant un gestor de bases de dades o fent una macro del tractament de textos, no s'han esmerçat esforços en programar ad hoc. Hem pretès que, el dia que hi hagi lingüicials distribuïts públicament en el marc de les iniciatives europees d'estandardització de corpus i recursos lingüístics, les dades del Corpus UB puguin beneficiar-se'n immediatament, ço que vol dir 1) tenir les dades 2) en un format flexible 3) fàcilment transferible als estàndards que s'adoptin. Els recursos informàtics que presentaré pretenen contribuir als tres objectius anteriors.

Una altra circumstància que ha condicionat el treball fet ha estat l'heterogeneïtat dels materials lingüístics que integren el Corpus UB, causada per la multiplicitat d'objectius de recerca que es pretén cobrir. A l'hora de dissenyar el Corpus, l'equip d'investigadors que el promou va acceptar aquesta heterogeneïtat en el convenciment que, tot i les seves peculiaritats diferencials, cadascun dels subcorpus podria ser explotat també contrastivament amb els altres gràcies a la generació de productes homogenis derivats de tots els subcorpus com índexs de freqüències, concordances, estadístics textuals (sobre paraules gramaticals, distància entre relatius, mitjana de mots per frase, proporció de subjuntius...), lemaris...

2. El paquet "ASCII850"

Un desenvolupament de tipus general, causat pel desig de facilitar la portabilitat de les dades del Corpus, ha estat el paquet "ASCII850", al voltant d'una tipografia per a Macintosh amb els caràcters ordenats segons el lloc que ocupen a la pàgina de codis 850 del sistema operatiu MS-DOS. Encara que aquest sistema operatiu és una relíquia del passat i que avui la portabilitat de les dades entre plataformes està totalment resolta, vàrem simplificar les operacions de transferència entre MAC (que havíem adoptat per les facilitats de manipulació de veu digitalitzada) i compatibles IBM que en el futur poguessin necessitar usuaris del Corpus externs al DFCUB.

El primer pas fou el disseny pròpiament de la tipografia "Courier850", feta amb 1'ajut del Sr. Jordi Domènech. Aquesta tipografia és monoespaiada, per facilitar el seu ús en llistats i concordances, i ens permet que tant els fitxers ASCII com les bases de dades es puguin llegir i manipular indistintament i simultània des de les plataformes Mac i MS-DOS.

Com a conseqüència de l'adopció de la tipografia "Courier850" per manipular els materials del Corpus UB, va caldre crear dos fitxers de configuració de teclat "Català ASCII850" i "Català ISO ASCII850". El paquet es completa amb dos programes de conversió entre ASCII850 i ASCII de Mac (un per a fitxers ASCII i l'altre per a fitxers compatibles dBase) i un fitxer de criteris d'ordenació per al programa Le Concordeur (2) que usem per al tractament lexicomètric del Corpus. El DFCUB ha cedit el paquet ASCII850 al domini públic; es pot aconseguir accedint via Internet a "http://lincat.fil.ub.es".

3. Gestió de veu digitalitzada

L'equip del Corpus UB va avaluar els costos de dos plantejaments alternatius del tractament del material oral: emmagatzemar-lo en alguna forma d'àudio convencional o digitalitzar-lo. En tots dos casos, el text s'hauria d'introduir a l'ordinador i hi hauria la possibilitat de recuperar qualsevol informació expressada textualment; la diferència rau en el fet que per contrastar el text amb l'àudio en un cas cal recuperar el senyal d'entre un conjunt voluminós de cintes mentre que en el segon cas es pot confiar a l'ordinador la gestió del senyal. En el primer cas, el cost humà es concentra en la recuperació de la informació; en el segon cas, el cost humà es concentra en l'operació de sincronitzar text i senyal, que anomenem "paral·lelització". Després de visitar diverses Universitats europees i del Quebec, l'equip del Corpus UB va considerar provat que el cost humà de peral lelitzar el text dels materials orals amb el senyal digitalitzat dels enregistraments corresponents quedava àmpliament compensat pels beneficis molt superiors de les possibilitats de recuperació i per la reducció dràstica dels costos humans d'aquesta recuperació.

Com a conseqüència d'aquesta decisió, es varen elaborar un seguit de programes que permeten la integració del text transcrit dels materials orals amb la veu digitalitzada. El primer d'aquests programes segmenta un enregistrament digitalitzat en unitats menors entre silencis. En deixo constància, encara que ja no l'usem: la tecnologia informàtica evoluciona de manera vertiginosa; això explica que en alguns aspectes els condicionaments que teníem en començar han canviat; llavors vàrem creure que era millor disposar de moltes unitats petites que de poques unitats grans, mentre que, posteriorment, amb la generalització dels lectors de CD-ROM, l'aparició d'estampadores molt econòmiques i l'abaratiment brutal del cost de les oblies, vàrem preferir exactament el contrari, abandonant l'ús del programa segmentador de fitxers de veu digitalitzada, que, de tota manera, funciona i està a disposició, com tots els altres si no es diu el contrari, de qualsevol equip de recerca.

El segon programa gestor de veu permet millorar el procés de digitalització fornint dades que serveixen per avaluar-ne la qualitat comparant el nivell de quantització i el grau de saturació.

El tercer programa serveix per convertir automàticament un text al format de base de dades usat en la paral·lelització; a les imatges següents es poden veure detalls d'una base de dades, en format dBase IV, gestionada des d'un Mac, però amb el joc de caràcters 850.

La segona d'aquestes imatges mostra les dades de la paral·lelització (mostra inicial=m_i i mostra final=m_f) i d'altres.

L'operació de paral·lelització, la fa un humà (3) amb ajut d'un quart programa (el paral·lelicial) que permet ajustar les marques de sincronització tot escoltant el senyal i visualitzant el text, que pot ser corregit en funció de les evidències que aquest procés forneix. El paral·lelicial extreu les mitjanes de durada de cada caràcter i millora progressivament la seva capacitat d'ajustar automàticament la durada del segment a sincrontizar, capacitat que gaudeix d'una rutina de detecció de silencis que, en funció del soroll de fons, sol millorar el procés:

Un cinquè programa permet explotar ("audiovisualitzar") els materials paral·lelitzats, que són exportats per un sisè programa a diversos formats usats per lingüicials estàndard i pels de manipulació de textos que esmentem a l'apartat següent. Cal destacar el fet que la veu digitalitzada està emmagatzemada en un fitxer en format SoundEdit, que es pot considerar un estàndard en la seva plataforma, cosa que permet usar diversos programes per manipular la veu o fer-hi comprovacions:

4. Etiquetatge gramatical

Es tracta de dos programes, un que lematitza i etiqueta i un altre que desambigua.

L'article El projecte CECA (Corpus Escrit del Català), que trobareu en aquesta mateixa publicació, inclou dues mostres del resultat d'aquests programes. El primer d'aquests programes es pot considerar acabat provisionalment (en el sentit que sempre serà susceptible de millora, mentre la llengua evolucioni) i és l'únic que no podem deixar al domini públic per mor dels interessos comercials (d'editorials lexicogràfiques) que se'n podrien ressentir; però està a disposició de qualsevol equip de recerca la possibilitat de transferir-nos textos que els retornaríem lematitzats i/o etiquetats. El segon programa, destinat a desambiguar els textos etiquetats per l'anterior, està resolt tècnicament però requereix ara mateix un treball (permeteu-me redundar) laboriós de recopilació de regles de base lingüística que s'iniciarà poc després del tancament d'aquest redactat. Durant la recopilació de les regles, el programa serà objecte de millores per incrementar-ne el rendiment en funció dels colls d'ampolla que les regles provoquin.

Aquesta informació és del dia 12 de novembre de 1995; tenint en compte l'entusiasme amb què treballem totes les implicades i també tots els implicats, us suggerim que ens seguir el rastre a través del WEB del DFCUB ("http://lincat.til.ub.es"). També ho podeu fer a través del de l'IULA ("http://www.iula.upf.es"). També hi trobareu altra informació sobre el projecte i d'altres programes "menors" que aquí no s'han esmentat.

Bibliografia

BUTLER, C. S. (ed.) ( 1992), Computers and written texts. Basil Blackwell, Oxford.

SINCLAIR, J. (1991), Corpus, concordance, collocation. Oxford University Press, Oxford.

(1) L'anglès "lingware" s'usa per designar les aplicacions informàtiques de tractament del llenguatge natural; els francesos en diuen "linguiciels" o "linguisticiels"; m'he permès l'estalvi de no dir cada vegada "aplicació/ons informàtica/ques de tractament del llenguatge natural" adoptant "lingüicial" per "lingware".

(2) Rand @ERE.Umontreal.CA

(3) La paral·lelització no podrà ser automàtica fins que no disposem de sistemes eficients de reconeixement de la parla, tant robustos com per processar converses amb diversos interlocutors simultanis.