L'estructura sil·làbica del català central

Establiment del corpus.

Criteris de transcripció

Abans de presentar els criteris que hem aplicat per obtenir la representació que anomenem desortografiada, cal deixar constància del fet que les dades d'aquest treball han estat manipulades durant la seva elaboració en quatre ordinadors diferents, cadascun dels quals té el seu propi sistema operatiu (Apple-DOS, CP/M, MS-DOS, Mac-OS).

Això ha portat a la conveniència de fer les dades invulnerables a la transferència entre màquines, cosa que és possible si s'eviten aquells caràcters que són codificats de manera diferent (tots els caràcters superiors al codi 127 de l'estàndard ASCII), entre els quals es troben totes les vocals accentuades i d'altres que hauríem pogut voler utilitzar. Si no es tingués en compte això, certes codificacions podrien semblar purament capricioses.

El procés d'obtenció de la representació desortografiada fa el següent:

Tots els signes resultants són caràcters inferiors al codi 128 de l'estàndard ASCII.

Inventari fonemàtic.

L'inventari de segments emprat és:

i e E A O o u j w l L r R m n Y p b t d k g f v s z S Z (vegeu la taula de símbols)

Cal remarcar que "R" s'usa només per diferenciar casos com [klA:r] i [kA:R] a final de mot, però no el considerem un fonema diferenciat. Aquest inventari és, bàsicament, el de Wheeler- 1977 , amb la diferència que no usem kwa i gwa (oclusives bilabiovelars /kw/ i /gw/), que apareixen representades segons les diverses representacions superficials que poden tenir.

Aquest inventari només contempla una variant vocàlica i una de consonàntica per a les sèries {vocal / semivocal / semiconsonant / consonant} palatal i velar: aquestes sèries reben més d'una interpretació quant al seu funcionament sil·làbic; aquí seguirem la que considera susceptible d'ocupar nucli de síl·laba només la vocal ([i], [u]); les altres tres possibilitats, que representarem sempre amb [j] i [w] respectivament, ocuparan sempre una posició no nuclear. Aquest punt de vista no exclou la possibilitat que una [i] vocàlica es transformi en una de les altres variants (per a nosaltres, [j]), sinó que implica que tota modificació d'aquesta mena és concebuda com una transformació de la seqüència sil·làbica, amb aparició o deleció d'una frontera de síl·laba.

El fet que mantinguem dues menes d'erra final de mot no és, potser, la millor solució, però no n'hem trobat cap altra. Té l'inconvenient que de síl·labes finals n'hi ha moltes que surten duplicades. En tot cas, és un tema que no està, creiem, prou estudiat: per una banda, no sembla que hi hagi un criteri per discriminar tots els casos de manteniment de la erra de tots els casos de caiguda; per una altra banda, és un fenomen canviant per tal com certs mots tendeixen a perdre el manteniment de la erra.

Així com en el cas de la erra vàrem arribar a retocar les dades, en el cas de la [tS] i la [dZ] no ho hem fet; però tenim la total convicció que el tractament difonemàtic ha complicat innecessàriament les coses, sobretot perquè cadascun dels dos fonemes ha estat atribuït a una síl·laba diferent. Fins i tot sospitem que ens hem allunyat molt del bon camí, en aquest punt. En aquest moment creiem que l'alternativa que ens interessarà d'estudiar més endavant serà entre el tractament monofonemàtic de les africades o el seu tractament com a al·lòfons de les fricatives corresponents.

Les bases de dades que hem generat no contenen els símbols fonètics, sinó una determinada codificació que n'hem fet. Creiem interessant explicitar-la, perquè alguna vegada ens serà útil. Hi relacionem també el codi per als al·lòfons que podem usar de vegades:

 

vocalisme

consonantisme

i i
e tancada e
e oberta E
a A
o oberta O
o tancada o
u u
bilabials labiodentals dentals alveolars palatals velars
oclusius sords p   t     k
oclusius sonors b   d     g
espirants B   D     G
fricatius sords   f   s S  
fricatius sonors   (v)   z Z  
nasals m M   n Y N
semivocals w       j  
laterals       l L  
vibrants       r / R    

Codificació: base de dades.

El diccionari inicial.

En un primer moment, vàrem tenir la intenció d'acumular en una sola base de dades totes les entrades del Diccionari General de la Llengua Catalana, de Pompeu Fabra, les del Diccionari de la Llengua Catalana, de l'Enciclopèdia Catalana i del Diccionari Manual d'Edhasa, i després derivar-ne tota la flexió. Vàrem començar pel de l'Enciclopèdia i, un cop introduïdes totes les entrades, vàrem veure que se'ns plantejava una tasca massa feixuga si havíem de confrontar els altres dos diccionaris i, a més, posteriorment obtenir totes les formes derivades. Part de la feixugor venia causada pel criteri estrafolari seguit pels compiladors del Manual, que obliga a tenir l'atenció escindida cada cop que es fa una consulta. Considerant que el diccionari de l'Enciclopèdia Catalana afirma estar recomanat per l'Institut d'Estudis Catalans, vàrem modificar el propòsit inicial i ens quedàrem, com a punt de partida, amb aquest diccionari, tot i que a la nostra base de dades hi vàrem haver de fer modificacions.

Hem partit dels mots en la seva forma ortogràfica codificada de manera que el tractament dels accents fos independent de l'ordinador amb què treballéssim. Per a cada mot (sobre 68551) hem disposat d'un conjunt d'informacions addicionals, entre les quals destaca un codi d'expansió morfològica que permet ensems aplicar-li el paradigma adequat i classificar-lo en les principals categories morfològiques.

Ha calgut afegir informació per diverses vies:

La informació resultant conté marques per separar els morfos quan la frontera sil·làbica no coincideix amb la de morf o quan la frontera de morf permet explicar situacions d'altra manera anòmales (per exemple, finals interiors, és a dir, la presència, en interior d'un mot, d'una seqüència que només pot ser final).

De les marques afegides als mots de la base de dades per governar l'aplicació d'excepcions durant els processos d'expansió morfològica, de partició sil·làbica i de transcripció, en direm marques idiosincràtiques. A més d'aquestes marques, a la base de dades hi ha dos camps que concerneixen tot el mot: CODI i CTRL.

El camp ctrl conté una marca opcional que pot ser:

e el mot és una excepció a la rutina de fronteres. m és un adjectiu amb adverbi derivat en -ment documentat. + la suma de les dues marques anteriors.

Les altres marques van afegides al mot en el punt en què es localitza l'element que se'n veu afectat. Vegem-ne alguns exemples (i, de passada, els accents):

Rec. codi mot
explicació
176 001 ABOC<ELLAR
en les formes rizotòniques, la "e" és tancada.
277 130 ABRI#%ULLs
dièresi sobre la vocal següent.
420 001 ACAL<ORAR
en les formes rizotòniques, la "o" és tancada.
670 181 ACIDO:CATALITZAT
el mot és compost i l'element anterior a la frontera és esdrúixol.
673 123 ACIDO:F/ILIA
accent tancat sobre la vocal següent.
677 123 ACIDO:RESIST\ENCIA
accent obert sobre la vocal següent.
976 157 ACRO=SOMA
compost amb prefix àton: resol el problema de les "s", "r" i "x" inicials interior.
1520 123 AERO=SOL#TER\APIA
el mot és compost i es pot detectar automàticament l'accent de l'element que precedeix la frontera.
1754 144 AF>ORES
la vocal següent ha de ser sostreta a la regla que la faria tancada.
3789 158 AM<Or
la "erra" no ha de ser emmudida
5025 130 APAGA#LLUMs
el mot és singular però conté un plural.
8853 123 BAUxITA
cal transcriure aquesta "ics" com a [ks].
13467 158 C\ASTIg
cal tanscriure aquesta "ge" com a [k].
15718 158 COmDOR
cal impedir que aquesta "ema" sigui assimilada.
35798 158 i/O
cal mantenir el caràcter no consonàntic d'aquesta "i".

La base de dades que conté el diccionari de primitiu s'anomena DICCIO.DBF i ocupa poc menys de nou megaoctets.

La flexió.

Per obtenir la flexió ha calgut agrupar els mots en models formals. Per exemple "aprendre" i "comprendre" segueixen el mateix model, perquè un cop tipificats en un dels dos el conjunt de canvis a fer per obtenir-ne tot el paradigma, els mateixos canvis donen el resultat correcte en l'altre; en canvi, "prendre" no segueix el mateix model formal, perquè té algunes formes monosil·làbiques tòniques sense accent gràfic que en els seus derivats són polisil·làbiques amb accent gràfic (pren / aprèn - pres / après), de manera que "prendre" és associat a un altre model.

Ha calgut establir el codi de flexió per a cadascun dels més de 68000 mots primitius, de manera que no ens hem deturat a contemplar casos d'al·lomorfisme: cada forma possible hi és un sol cop, encara que teòricament pugui aparèixer duplicada, com "ves - veges". hem explicitat totes les formes que manquen a l'apèndix sobre formes verbals no incloses. Hem procurat triar l'alternativa més viva o la més acostada a la pràctica oral, de manera que hem preferit "frescos" a "frescs".

Quan el diccionari atribueix dues flexions diferents al mateix mot, com a "acompanyant", aquest apareix dues vegades amb dos codis diferents. Això passa més sovint del que podria semblar, amb la conseqüència que als llistats de resultats el mot apareix dues vegades avaluem la importància d'aquestes repeticions a l'apèndix sobre formes repetides. .

Hem de deixar constància, finalment, del fet que al nostre corpus no hi ha verbs defectius: tots tenen tota la flexió. Això ha reduït el nombre de models. A més, en usos metafòrics, qualsevol forma d'un verb defectiu és possible: "estic que trono", ...

Els fitxers sil·làbics.

En el moment de planificar l'estructura del fitxer que havia de contenir la base de dades sil·làbica, el factor que més ens condicionava era el volum que pogués arribar a adquirir, no només per la quantitat de memòria necessària, sinó també pel temps d'execució necessari per llegir el conjunt de les dades.

A més, ens interessava la possibilitat de recuperar les síl·labes de tres maneres diferents:

Per aconseguir aquesta triple possibilitat, hem farcit cada síl·laba amb blancs a les posicions que romanien buides, de manera que la vocal sempre apareix en tercera posició: si volem dades per posició, explorem el caràcter X de la síl·laba; si volem explorar per fases, explorem els dos primers caràcters per a l'explosió i els tres darrers per a la implosió (explosió=P1+P2, nucli=P3 i implosió=P4+P5+P6); si volem la síl·laba sense referència a posicions o fases, obtenim P1+P2+P3+P4+P5+P6 i n'eliminem els espais buits (=caràcter blanc).

Després de diverses provatures, ens hem inclinat per un model compactat, en què les informacions estan combinades per ocupar el mínim possible, que són vuit caràcters per síl·laba: dos per a la síl·laba, tres per al número que permet localitzar el primitiu del qual deriva el mot que conté la síl·laba, un per al caràcter tònic o àton de la síl·laba, un per a l'identificador de derivat, que permet saber quina de les paraules que deriven del mateix primitiu és la que conté la síl·laba i un per a la compactació de dues informacions: número d'ordre de la síl·laba dins del mot i tipus posicional de la síl·laba, que és un del conjunt {inicial absolut, inicial interior, final absolut, final interior, unisil·làbic absolut, unisil·làbic interior, medial}. El fitxer sil·làbic s'anomena SY.R08 i ocupa aproximadament 19 megaoctets.

Per compactar la síl·laba a dos octets, s'han tractat com a seqüència de setze bits, dels quals els tres primers codifiquen la vocal pel seu ordinal en la llista de vocals possibles, els sis següents codifiquen el grup de zero, una o dues consonants que hi ha a l'inici de la síl·laba (seixanta-quatre possibilitats, de les quals se n'usen 37) i els set restants codifiquen el grup de zero, una, dues o tres consonants que hi ha al final de la síl·laba (cent vint-i-vuit possibilitats, de les quals se n'usen 87). Cal remarcar que els dos octets resultants poden prendre valors entre zero i dos-cents cinquanta-cinc; però aquí no ens crea cap problema, perquè, encara que el codi 250, p.e., correspongui a dos caràcters diferents en màquines que no tinguin el mateix sistema operatiu, per a nosaltres sempre significarà el valor numèric que resta idèntic.

El número del primitiu en la base de dades DICCIO s'ha hagut de codificar en tres octets perquè el nombre de primitius és superior a 216.

Les dades estan contingudes a SY.R08 en ordre seqüencial de generació: la primera síl·laba del primer derivat del primer primitiu de DICCIO, la segona síl·laba..., fins a la darrera síl·laba del darrer derivat del darrer primitiu. Això ens permet un accés aleatori a qualsevol mot: cerquem el seu primitiu a DICCIO i en funció del número del registre que el conté, cerquem binàriament a SY.R08, fins que una de les síl·labes conté el mateix número de mot; llavors retrocedim o avancem uns quants registres, fins que trobem el número de derivat que pertoca al mot que ens interessa.

L'estructura de SY.R08 és idònia quan cerquem mots sencers, però quan ens interessen dades numèriques sobre les síl·labes o llistats de mots amb la mateixa síl·laba, ens caldria una lectura seqüencial de tot el fitxer. Per això tenim una versió comprimida de SY.R08, anomenada SYPA.R08, que ocupa cinc megaoctets i mig, i que té acumulades totes les ocurrències de la mateixa síl·laba entre els mots derivats d'un mateix primitiu en un sol registre. Això explica que sigui molt menys voluminós i que no permeti arribar a cada derivat en particular. A més, no està ordenat pel primitiu, sinó per la síl·laba, cosa que ens permet llistar ràpidament tots els primitius dels mots que tenen la mateixa síl·laba.

A tall de mostra, llistem a continuació alguns registres de SY.R08 descompactats i afegint-hi el primitiu. Les dades que hi ha són, d'esquerra a dreta, el número de registre de SY.R08, la síl·laba, el número de primitiu a DICCIO, tònica vs. àtona, el número de derivat, el tipus posicional (I=inicial absolut, i=inicial interior, F=final absolut, f=final interior, U=unisil·làbic absolut, u=unisil·làbic interior, m=medial), el número de la síl·laba dins del mot i el primitiu tal com consta a DICCIO. Si presentéssim tota la base de dades sil·làbica amb aquest format ocuparia més de trenta mil pàgines...

0000001 __A____ 00001 A 1 U 1 A
0000002 __A____ 00002 T 2 U 1 A
0000003 __As___ 00002 T 4 U 1 A
0000004 __Ap___ 00003 T 1 U 1 AB
0000005 __Aps__ 00003 T 3 U 1 AB
0000006 __A____ 00004 A 1 I 1 ABABOL
0000007 b_A____ 00004 A 1 m 2 ABABOL
0000008 b_Ol___ 00004 T 1 F 3 ABABOL
0000009 __A____ 00004 A 3 I 1 ABABOL
0000010 b_A____ 00004 A 3 m 2 ABABOL
0000011 b_Ols__ 00004 T 3 F 3 ABABOL
0000012 __A____ 00005 A 2 I 1 ABABOLERA
0000013 b_A____ 00005 A 2 m 2 ABABOLERA
0000014 b_o____ 00005 A 2 m 3 ABABOLERA
0000015 l_e____ 00005 T 2 m 4 ABABOLERA
0000016 r_A____ 00005 A 2 F 5 ABABOLERA
0000017 __A____ 00005 A 4 I 1 ABABOLERA
0000018 b_A____ 00005 A 4 m 2 ABABOLERA
0000019 b_o____ 00005 A 4 m 3 ABABOLERA
0000020 l_e____ 00005 T 4 m 4 ABABOLERA
0000021 r_es___ 00005 A 4 F 5 ABABOLERA
0000022 __A____ 00006 T 1 I 1 \ABAC
0000023 b_Ak___ 00006 A 1 F 2 \ABAC
0000024 __A____ 00006 T 3 I 1 \ABAC
0000025 b_Aks__ 00006 A 3 F 2 \ABAC
0000026 __A____ 00007 A 1 I 1 ABAC\A
0000027 b_A____ 00007 A 1 m 2 ABAC\A
0000028 k_A____ 00007 T 1 F 3 ABAC\A
0000029 __A____ 00007 A 3 I 1 ABAC\A
0000030 b_A____ 00007 A 3 m 2 ABAC\A
0000331 __A____ 00009 A 1 I 1 ABACIAL
0000332 b_A____ 00009 A 1 m 2 ABACIAL
0000333 s_i____ 00009 A 1 m 3 ABACIAL
0000334 __Al___ 00009 T 1 F 4 ABACIAL
0000335 __A____ 00009 A 2 I 1 ABACIAL
0000336 b_A____ 00009 A 2 m 2 ABACIAL
0000337 s_i____ 00009 A 2 m 3 ABACIAL
0000338 __Al___ 00009 T 2 F 4 ABACIAL
0000339 __A____ 00009 A 3 I 1 ABACIAL
0000340 b_A____ 00009 A 3 m 2 ABACIAL
0000341 s_i____ 00009 A 3 m 3 ABACIAL
0000342 __Als__ 00009 T 3 F 4 ABACIAL
0000343 __A____ 00009 A 4 I 1 ABACIAL
0000344 b_A____ 00009 A 4 m 2 ABACIAL
0000345 s_i____ 00009 A 4 m 3 ABACIAL
0000346 __Als__ 00009 T 4 F 4 ABACIAL
0000347 __A____ 00010 A 1 I 1 ABACIOLOGI
0000348 b_A____ 00010 A 1 m 2 ABACIOLOGI
0000349 s_i____ 00010 A 1 m 3 ABACIOLOGI
0000350 __o____ 00010 A 1 m 4 ABACIOLOGI
0000351 l_O____ 00010 T 1 m 5 ABACIOLOGI
0000352 Z_i____ 00010 A 1 F 6 ABACIOLOGI
0000353 __A____ 00010 A 3 I 1 ABACIOLOGI
0000354 b_A____ 00010 A 3 m 2 ABACIOLOGI
0000355 s_i____ 00010 A 3 m 3 ABACIOLOGI
0000356 __o____ 00010 A 3 m 4 ABACIOLOGI
0000357 l_O____ 00010 T 3 m 5 ABACIOLOGI
0000358 Z_is___ 00010 A 3 F 6 ABACIOLOGI
0000359 __A____ 00011 A 1 I 1 ABACISTA
0000360 b_A____ 00011 A 1 m 2 ABACISTA
0000361 s_is___ 00011 T 1 m 3 ABACISTA
0000362 t_A____ 00011 A 1 F 4 ABACISTA
0000363 __A____ 00011 A 2 I 1 ABACISTA
0000364 b_A____ 00011 A 2 m 2 ABACISTA
0000365 s_is___ 00011 T 2 m 3 ABACISTA
0000366 t_A____ 00011 A 2 F 4 ABACISTA
0000367 __A____ 00011 A 3 I 1 ABACISTA
0000368 b_A____ 00011 A 3 m 2 ABACISTA
0000369 s_is___ 00011 T 3 m 3 ABACISTA
0000370 t_es___ 00011 A 3 F 4 ABACISTA
0000371 __A____ 00011 A 4 I 1 ABACISTA
0000372 b_A____ 00011 A 4 m 2 ABACISTA
0000373 s_is___ 00011 T 4 m 3 ABACISTA
0000374 t_es___ 00011 A 4 F 4 ABACISTA
0000375 __A____ 00012 A 1 I 1 ABACOmTAT
0000376 b_A____ 00012 A 1 m 2 ABACOmTAT
0000377 k_om___ 00012 A 1 m 3 ABACOmTAT
0000378 t_At___ 00012 T 1 F 4 ABACOmTAT
0000379 __A____ 00012 A 3 I 1 ABACOmTAT
0000380 b_A____ 00012 A 3 m 2 ABACOmTAT
0000381 k_om___ 00012 A 3 m 3 ABACOmTAT
0000382 t_Ats__ 00012 T 3 F 4 ABACOmTAT
0000383 __A____ 00013 A 1 I 1 ABAC<OmTE
0000384 b_A____ 00013 A 1 m 2 ABAC<OmTE
0000385 k_om___ 00013 T 1 m 3 ABAC<OmTE
0000386 t_e____ 00013 A 1 F 4 ABAC<OmTE
0000387 __A____ 00013 A 3 I 1 ABAC<OmTE
0000388 b_A____ 00013 A 3 m 2 ABAC<OmTE
0000389 k_om___ 00013 T 3 m 3 ABAC<OmTE
0000390 t_es___ 00013 A 3 F 4 ABAC<OmTE
0000391 __A____ 00014 A 1 I 1 ABADAL
0000392 b_A____ 00014 A 1 m 2 ABADAL
0000393 d_Al___ 00014 T 1 F 3 ABADAL
0000394 __A____ 00014 A 2 I 1 ABADAL
0000395 b_A____ 00014 A 2 m 2 ABADAL
0000396 d_Al___ 00014 T 2 F 3 ABADAL
0000397 __A____ 00014 A 3 I 1 ABADAL
0000398 b_A____ 00014 A 3 m 2 ABADAL
0000399 d_Als__ 00014 T 3 F 3 ABADAL
0000400 __A____ 00014 A 4 I 1 ABADAL
0000401 b_A____ 00014 A 4 m 2 ABADAL
0000402 d_Als__ 00014 T 4 F 3 ABADAL
2000099 r_A____ 55111 A 1 I 1 RAPINYER
2000100 p_i____ 55111 A 1 m 2 RAPINYER
2000101 Y_er___ 55111 T 1 F 3 RAPINYER
2000102 r_A____ 55111 A 2 I 1 RAPINYER
2000103 p_i____ 55111 A 2 m 2 RAPINYER
2000104 Y_e____ 55111 T 2 m 3 RAPINYER
2000105 r_A____ 55111 A 2 F 4 RAPINYER
2000106 r_A____ 55111 A 3 I 1 RAPINYER
2000107 p_i____ 55111 A 3 m 2 RAPINYER
2000108 Y_ers__ 55111 T 3 F 3 RAPINYER
2000109 r_A____ 55111 A 4 I 1 RAPINYER
2000110 p_i____ 55111 A 4 m 2 RAPINYER
2000111 Y_e____ 55111 T 4 m 3 RAPINYER
2000112 r_es___ 55111 A 4 F 4 RAPINYER
2000113 r_A____ 55112 A 1 I 1 RAPIR
2000114 p_ir___ 55112 T 1 F 2 RAPIR
2000115 r_A____ 55112 A 2 I 1 RAPIR
2000116 p_int__ 55112 T 2 F 2 RAPIR
2000117 r_A____ 55112 A 3 I 1 RAPIR
2000118 p_it___ 55112 T 3 F 2 RAPIR
2000119 r_A____ 55112 A 4 I 1 RAPIR
2000120 p_i____ 55112 T 4 m 2 RAPIR
2000121 d_A____ 55112 A 4 F 3 RAPIR
2000122 r_A____ 55112 A 5 I 1 RAPIR
2000123 p_its__ 55112 T 5 F 2 RAPIR
2000124 r_A____ 55112 A 6 I 1 RAPIR
2000125 p_i____ 55112 T 6 m 2 RAPIR
2000126 d_es___ 55112 A 6 F 3 RAPIR
2000127 r_A____ 55112 A 7 I 1 RAPIR
2000128 p_E____ 55112 T 7 m 2 RAPIR
2000129 S_o____ 55112 A 7 F 3 RAPIR
2000130 r_A____ 55112 A 8 I 1 RAPIR
2000131 p_E____ 55112 T 8 m 2 RAPIR
2000132 S_es___ 55112 A 8 F 3 RAPIR
2000133 r_A____ 55112 A 9 I 1 RAPIR
2000134 p_ES___ 55112 T 9 F 2 RAPIR
2000135 r_A____ 55112 A 10 I 1 RAPIR
2000136 p_im___ 55112 T 10 F 2 RAPIR
2000137 r_A____ 55112 A 11 I 1 RAPIR
2000138 p_iw___ 55112 T 11 F 2 RAPIR
2000139 r_A____ 55112 A 12 I 1 RAPIR
2000140 p_E____ 55112 T 12 m 2 RAPIR
2000141 S_en___ 55112 A 12 F 3 RAPIR
2000142 r_A____ 55112 A 13 I 1 RAPIR
2000143 p_i____ 55112 T 13 m 2 RAPIR
2000144 __A____ 55112 A 13 F 3 RAPIR
2000145 r_A____ 55112 A 14 I 1 RAPIR
2000146 p_i____ 55112 T 14 m 2 RAPIR
2000147 __es___ 55112 A 14 F 3 RAPIR
2000148 r_A____ 55112 A 15 I 1 RAPIR
2000149 p_i____ 55112 T 15 m 2 RAPIR
2000150 __A____ 55112 A 15 F 3 RAPIR
2000151 r_A____ 55112 A 16 I 1 RAPIR
2000152 p_i____ 55112 T 16 m 2 RAPIR
2000153 __em___ 55112 A 16 F 3 RAPIR
2000154 r_A____ 55112 A 17 I 1 RAPIR
2000155 p_i____ 55112 T 17 m 2 RAPIR
2000156 __ew___ 55112 A 17 F 3 RAPIR
2000157 r_A____ 55112 A 18 I 1 RAPIR
2000158 p_i____ 55112 T 18 m 2 RAPIR
2000159 __en___ 55112 A 18 F 3 RAPIR
2000160 r_A____ 55112 A 19 I 1 RAPIR
2000161 p_i____ 55112 T 19 F 2 RAPIR
2000162 r_A____ 55112 A 20 I 1 RAPIR
2000163 p_i____ 55112 T 20 m 2 RAPIR
2000164 r_es___ 55112 A 20 F 3 RAPIR
2000165 r_A____ 55112 A 21 I 1 RAPIR
2000166 p_i____ 55112 T 21 F 2 RAPIR
2000167 r_A____ 55112 A 22 I 1 RAPIR
2000168 p_i____ 55112 T 22 m 2 RAPIR
2000169 r_em___ 55112 A 22 F 3 RAPIR
2000170 r_A____ 55112 A 23 I 1 RAPIR
2000171 p_i____ 55112 T 23 m 2 RAPIR
2000172 r_ew___ 55112 A 23 F 3 RAPIR
2000173 r_A____ 55112 A 24 I 1 RAPIR
2000174 p_i____ 55112 T 24 m 2 RAPIR
2000175 r_en___ 55112 A 24 F 3 RAPIR
2000176 r_A____ 55112 A 25 I 1 RAPIR
2000177 p_i____ 55112 A 25 m 2 RAPIR
2000178 r_e____ 55112 T 25 F 3 RAPIR
2000179 r_A____ 55112 A 26 I 1 RAPIR
2000180 p_i____ 55112 A 26 m 2 RAPIR
2000181 r_As___ 55112 T 26 F 3 RAPIR
2000182 r_A____ 55112 A 27 I 1 RAPIR
2000183 p_i____ 55112 A 27 m 2 RAPIR
2000184 r_A____ 55112 T 27 F 3 RAPIR
2000185 r_A____ 55112 A 28 I 1 RAPIR
2000186 p_i____ 55112 A 28 m 2 RAPIR
2000187 r_Em___ 55112 T 28 F 3 RAPIR
2000188 r_A____ 55112 A 29 I 1 RAPIR
2000189 p_i____ 55112 A 29 m 2 RAPIR
2000190 r_Ew___ 55112 T 29 F 3 RAPIR
2000191 r_A____ 55112 A 30 I 1 RAPIR
2000192 p_i____ 55112 A 30 m 2 RAPIR
2000193 r_An___ 55112 T 30 F 3 RAPIR
2000194 r_A____ 55112 A 31 I 1 RAPIR
2000195 p_i____ 55112 A 31 m 2 RAPIR
2000196 r_i____ 55112 T 31 m 3 RAPIR
2000197 __A____ 55112 A 31 F 4 RAPIR
2000198 r_A____ 55112 A 32 I 1 RAPIR
2000199 p_i____ 55112 A 32 m 2 RAPIR
2000200 r_i____ 55112 T 32 m 3 RAPIR

Transcripció automatitzada.

Aquest capítol no ha estat convertit a HTML. L'autor considera que es tracta de material sensible i confia la custòdia d'aquesta part als mecanismes tradicionals de consulta de les tesis doctorals, esperant que el lector se'n farà càrrec.

Qüestions no resoltes.

Les bases de dades, en el seu estat actual, presenten algun problema que cal tenir en compte a l'hora d'analitzar els resultats.

En primer lloc, tenim el problema de les "e" i "o" tòniques: no hem revisat una per una totes les ocasions en què una "e" o una "o" han estat marcades automàticament com a obertes o tancades sense tenir una evidència ortogràfica. Tampoc no s'han tractat els casos en què la mateixa paraula pot ser pronunciada amb qualsevol dels dos graus, com "sense". Això implica que no es pot treure cap conclusió vàlida sobre la distribució d'aquestes vocals entre si.

En segon lloc, cal tenir en compte que només hem introduït aquelles marques que eren indispensables (i potser ens n'hem deixat alguna) per transcriure correctament; això fa que, p.e., alguns prefixos no estiguin tractats d'una manera sistemàtica; no temem, però, que això afecti els resultats.

Finalment, moltes de les duplicitats que hi ha al corpus són, per al nostre treball, innecessàries, com, p.e., imprès, que consta com a substantiu i que també s'obté a partir de imprimir. Com aquest cas n'hi ha molts, de mots duplicats perquè tenen entrades diferents al diccionari. No és el cas de dur o fer (verb i adjectiu), perquè en aquests casos la flexió de cada mot no és idèntica. Ens hauria agradat eliminar aquestes duplicitats ja en la versió actual, però no ha estat possible.