La Rambla 30-32. 08071 Barcelona .
Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es
De corpus orals
Pàgina actualitzada el dia 3-12-96
Informe sobre les necessitats informàtiques en el processament d'un corpus oral
Les línies següents pretenen sintetizar els avantages de la manipulació informàtica d'un corpus oral i esquematitzar els requeriments per a dur-la a terme.
- Manipulació dels textos. Els corpus orals comparteixen amb els escrits la possibilitat de ser introduïts en un ordinador. En el cas dels orals, la transcripció podrà ser ortogràfica o fonètica, amb diversos nivells de rigor i amb codificacions variades segons els propòsits del treball. Tenir els corpus en suport digital ofereix diversos avantatges:
- Revisió. El text podrà ser revisat amb ajuda de les diverses eines que avui ja hi ha per a la correcció de textos.
- Generació de concordances i índexs. S'obtindran fàcilment diversos tipus de llistats que serviran tant per a les investigacions que originen el corpus com per a qualsevol altre treball que pretengui creuar informacions de diversos corpus.
- Recerca automàtica. Gestors de bases de dades documentals permetran localitzar sense esforços exemples i citacions.
- Difusió electrònica. Els materials es podran fer arribar a la comunitat científica a través de les "autopistes" de la informació (les xarxes telemàtiques a escala planetària).
- Difusió impresa. Es podrà procedir a la impressió dels materials que convingui sense recórrer a una edició externa, de manera que tot el procés d'edició estigui sota el control de l'equip investigador i evitant la participació de profans que podrien desvirtuar les dades amb errors o correccions improcedents.
- Digitalització de la veu. Com a especificitat dels corpus orals, és possible introduir la veu en suport magnètic i utilitzar l'ordinador com a magnetòfon intel·ligent i instrument de laboratori ensems.
- Transcripció directa. Amb els ordinadors actuals és possible realitzar múltiples tasques simultàniament. Això permet usar combinadament un tractament de textos i un editor de veu digitalitzada per fer la transcripció directament a l'ordinador amb tots els avantatges d'un magnetòfon controlat amb pedals, incrementats notablement.
- Exploració amb programes d'anàlisi fonètica. Tenint la veu digitalitzada, resulta molt avinent l'aplicació de programes d'anàlisi fonètica que permeten tant la visualització d'un oscil·lograma com la producció d'espectrogrames amb diversos tipus de filtratges i de finestres. Això permet arribar als mateixos nivells de rigor que es podrien obtenir amb equips de laboratori fonètic que costen milions.
- Paral·lelització senyal-text. Si es realitza l'esforç addicional d'establir una relació entre cada unitat principal d'anàlisi textual (frase, unitat entonativa, paraula, etc., segons l'objectiu de l'estudi) i el fragment de senyal digitalitzat que li correspon [operació que anomenem "etiquetatge"], les possibilitats d'explotació dels materials creixen extraordinàriament. Cal, però, no perdre de vista que aquesta operació té un cost humà elevat: mentre que una transcripció ordinària pot costar deu vegades el temps real (en funció del rigor de la transcripció), és a dir, deu minuts de feina per un minut d'enregistrament, en el cas de l'etiquetatge mot a mot cal preveure de cent a cent vuitanta minuts per minut.
- Àudio-edició informàtica. Totes les feines de manteniment i edició del Corpus són molt més bones de fer i molt més segures si es tenen els materials en suport magnètic i es disposa de la infrastructura adequada, que és més econòmica que l'equivalent en equips d'àudio. És especialment beneficiosa la possibilitat, que és al nostre abast, de transferir a un CD-ROM l'equivalent de quatre hores de veu digitatlitzada en monoaural a 22kHz, opció que ens dóna les màximes garanties de seguretat avui per avui i el grau més alt de manipilabilitat i transportabilitat dels materials.
- Difusió electrònica. De la mateixa manera que el text es pot difondre via xarxes electròniques, també el senyal pot ser disseminat arreu del món si resideix en dispositius electrònics.
- Infrastructura requerida. Les dades que presentem sobre infrastructura pressuposen un equip humà mínim; si l'equip fos gran, caldria ampliar el nombre d'unitats de treball.
- Equips d'àudio. Només es necessiten per a la manipulació prèvia. Ha d'haver-hi un amplificador i un magnetòfon (DAT, de cassettes o de bobines, segons el tipus de materials a manipular); podria donar-se el cas que treballéssim directament sobre enregistraments en vídeo o sobre programes de ràdio o televisió; si fos així, necessitaríem un magnetoscopi amb sintonitzador de TV o bé un sintonitzador de ràdio. No cal que aquests equips tinguin qualitat d'estudi professional; poden ser de tipus domèstic, sempre i quan siguin de bona marca. Si no volem digitalitzar la veu, necessitarem equips de reproducció controlats per pedals.
- Equips informàtics. Almenys un ordinador per a introducció de dades i un altre per a les tasques d'anàlisi. Si volem digitalitzar veu, cal que els ordinadors siguin multimèdia i que permetin la digitalització a 22kHz o similar. Aquests ordinadors haurien de tenir lector de CD-ROM d'alta velocitat, almenys 8Moctets de RAM i un disc dur de 160Moctets com a mínim i una velocitat d'accés inferior a 16 mil·lisegons. Caldrà que les diverses estacions de treball puguin compartir en xarxa dispositius com una impressora de qualitat i un disc extern de 500 Moctets i menys de 10 mil·lisegons d'accés.És indispensable també que la xarxa local faciliti l'accés al correu electrònic.
- Programes. Els programes bàsics necessaris són un tractament de textos d'alt nivell (com WordPerfect o Microsoft Word), un gestor de bases de dades (v.g. FoxPro), un full de càlcul (v.g. Excel), utilitats de compressió, antivirus i reparació de discos i, si s'opta per la veu digitalitzada, un editor digital de senyals acústics. Per a l'explotació dels textos caldrà comptar amb algun programa de concordances com TACT, Le Concordeur o Word Cruncher
- Fungibles. Cal preveure despesa en disquets, CD-ROMs enregistrables, tòner o cartutxos de tinta i paper.
- Altres. El manteniment dels equips ha de ser cobert per un contracte o bé cal assignar un pressupost anual per a reparacions d'entre el cinc i el deu per cent del valor dels equips. Cal preveure una despesa anual de formació dels col·laboradors que pot oscil·lar entre les cinquanta i les cent cinquanta hores de cursos o seminaris (en funció del nombre de col·laboradors i del grau de coneixences que puguin necessitar).
Lluís de Yzaguirre .
Institut de Lingüística Aplicada -
Universitat "Pompeu Fabra"
consultes: de_yza@upf.es