L'estructura sil·làbica del català central

Establiment del corpus.

Abans de presentar els criteris que hem aplicat per obtenir la representació que anomenem desortografiada, cal deixar constància del fet que les dades d'aquest treball han estat manipulades durant la seva elaboració en quatre ordinadors diferents, cadascun dels quals té el seu propi sistema operatiu (Apple-DOS, CP/M, MS-DOS, Mac-OS).

Això ha portat a la conveniència de fer les dades invulnerables a la transferència entre màquines, cosa que és possible si s'eviten aquells caràcters que són codificats de manera diferent (tots els caràcters superiors al codi 127 de l'estàndard ASCII), entre els quals es troben totes les vocals accentuades i d'altres que hauríem pogut voler utilitzar. Si no es tingués en compte això, certes codificacions podrien semblar purament capricioses.

El procés d'obtenció de la representació desortografiada fa el següent:

parteix de la forma ortogràfica de cada mot del corpus amb, eventualment, marques idiosincràtiques prèviament afegides;
elimina tota ambigüitat ortogràfica;
representa les vocals tòniques pel símbol corresponent de l'AFI seguit de ":";
representa les vocals àtones amb el triangle vocàlic àton del català occidental; així, dos mots com cònjuge [kO:n.Zu.Ze] i conjugicida [kon.Zu.Zi.si:.dA] no presenten la mateixa vocal i no evidencien la relació que tenen, com passaria en una representació morfonològica; per marcar totes les "o" i "e" àtones com a provinents d'un dels sons [o, O, e, E] caldria un treball molt més voluminós o un corpus molt més reduït; a més, no canviarien gaire les dades pel que fa a l'estructura de la síl·laba. ;
neutralitza de sonoritat totes les obstruents implosives;
no inclou les espirants;
neutraliza en [n] totes les nasals implosives, excepte alguns casos de [m] que seran objecte de comentari;
representa les vibrants com a un únic segment, que apareix sol o geminat, d'acord amb Wheeler (Wheeler-1977), excepte els casos especials de [R] final mantinguda, que seran objecte de comentari;
representa les semiconsonants com a segments independents de les corresponents vocals tancades;
introdueix només aquelles fronteres de morfema que poden tenir influència en la transcripció, en la distribució dels accents o en la divisió sil·làbica;

Tots els signes resultants són caràcters inferiors al codi 128 de l'estàndard ASCII.

Inventari fonemàtic.

L'inventari de segments emprat és:

i e E A O o u j w l L r R m n Y p b t d k g f v s z S Z (vegeu la taula de símbols)

Cal remarcar que "R" s'usa només per diferenciar casos com [klA:r] i [kA:R] a final de mot, però no el considerem un fonema diferenciat. Aquest inventari és, bàsicament, el de Wheeler- 1977 , amb la diferència que no usem kwa i gwa (oclusives bilabiovelars /kw/ i /gw/), que apareixen representades segons les diverses representacions superficials que poden tenir.

Aquest inventari només contempla una variant vocàlica i una de consonàntica per a les sèries {vocal / semivocal / semiconsonant / consonant} palatal i velar: aquestes sèries reben més d'una interpretació quant al seu funcionament sil·làbic; aquí seguirem la que considera susceptible d'ocupar nucli de síl·laba només la vocal ([i], [u]); les altres tres possibilitats, que representarem sempre amb [j] i [w] respectivament, ocuparan sempre una posició no nuclear. Aquest punt de vista no exclou la possibilitat que una [i] vocàlica es transformi en una de les altres variants (per a nosaltres, [j]), sinó que implica que tota modificació d'aquesta mena és concebuda com una transformació de la seqüència sil·làbica, amb aparició o deleció d'una frontera de síl·laba.

El fet que mantinguem dues menes d'erra final de mot no és, potser, la millor solució, però no n'hem trobat cap altra. Té l'inconvenient que de síl·labes finals n'hi ha moltes que surten duplicades. En tot cas, és un tema que no està, creiem, prou estudiat: per una banda, no sembla que hi hagi un criteri per discriminar tots els casos de manteniment de la erra de tots els casos de caiguda; per una altra banda, és un fenomen canviant per tal com certs mots tendeixen a perdre el manteniment de la erra.

Així com en el cas de la erra vàrem arribar a retocar les dades, en el cas de la [tS] i la [dZ] no ho hem fet; però tenim la total convicció que el tractament difonemàtic ha complicat innecessàriament les coses, sobretot perquè cadascun dels dos fonemes ha estat atribuït a una síl·laba diferent. Fins i tot sospitem que ens hem allunyat molt del bon camí, en aquest punt. En aquest moment creiem que l'alternativa que ens interessarà d'estudiar més endavant serà entre el tractament monofonemàtic de les africades o el seu tractament com a al·lòfons de les fricatives corresponents.

Les bases de dades que hem generat no contenen els símbols fonètics, sinó una determinada codificació que n'hem fet. Creiem interessant explicitar-la, perquè alguna vegada ens serà útil. Hi relacionem també el codi per als al·lòfons que podem usar de vegades:

vocalisme

consonantisme

i	i
e tancada	e
e oberta	E
a	A
o oberta	O
o tancada	o
u	u

	bilabials	labiodentals	dentals	alveolars	palatals	velars
oclusius sords	p		t			k
oclusius sonors	b		d			g
espirants	B		D			G
fricatius sords		f		s	S
fricatius sonors		(v)		z	Z
nasals	m	M		n	Y	N
semivocals	w				j
laterals				l	L
vibrants				r / R

Codificació: base de dades.

El diccionari inicial.

En un primer moment, vàrem tenir la intenció d'acumular en una sola base de dades totes les entrades del Diccionari General de la Llengua Catalana, de Pompeu Fabra, les del Diccionari de la Llengua Catalana, de l'Enciclopèdia Catalana i del Diccionari Manual d'Edhasa, i després derivar-ne tota la flexió. Vàrem començar pel de l'Enciclopèdia i, un cop introduïdes totes les entrades, vàrem veure que se'ns plantejava una tasca massa feixuga si havíem de confrontar els altres dos diccionaris i, a més, posteriorment obtenir totes les formes derivades. Part de la feixugor venia causada pel criteri estrafolari seguit pels compiladors del Manual, que obliga a tenir l'atenció escindida cada cop que es fa una consulta. Considerant que el diccionari de l'Enciclopèdia Catalana afirma estar recomanat per l'Institut d'Estudis Catalans, vàrem modificar el propòsit inicial i ens quedàrem, com a punt de partida, amb aquest diccionari, tot i que a la nostra base de dades hi vàrem haver de fer modificacions.

Hem partit dels mots en la seva forma ortogràfica codificada de manera que el tractament dels accents fos independent de l'ordinador amb què treballéssim. Per a cada mot (sobre 68551) hem disposat d'un conjunt d'informacions addicionals, entre les quals destaca un codi d'expansió morfològica que permet ensems aplicar-li el paradigma adequat i classificar-lo en les principals categories morfològiques.

Ha calgut afegir informació per diverses vies:

per programa s'han inserit totes les marques predictibles (prefixos amb rendiment, estalvi de la dièresi) per a la separació sil·làbica i per a la segmentació en morfos coherència amb el que més endavant postularem (això és, que seqüències com "morfs flexibles" només són citables), ens prenem la llibertat d'usar com si fos normal el plural "morfos". i marques per a la transcripció.
manualment s'han marcat tots els compostos impredictibles (sense guionet) i els prefixos sense rendiment i també els pseudoprefixos (mots que comencen amb la mateixa seqüència gràfica que un determinat prefix).

La informació resultant conté marques per separar els morfos quan la frontera sil·làbica no coincideix amb la de morf o quan la frontera de morf permet explicar situacions d'altra manera anòmales (per exemple, finals interiors, és a dir, la presència, en interior d'un mot, d'una seqüència que només pot ser final).

De les marques afegides als mots de la base de dades per governar l'aplicació d'excepcions durant els processos d'expansió morfològica, de partició sil·làbica i de transcripció, en direm marques idiosincràtiques. A més d'aquestes marques, a la base de dades hi ha dos camps que concerneixen tot el mot: CODI i CTRL.

El camp ctrl conté una marca opcional que pot ser:

e el mot és una excepció a la rutina de fronteres. m és un adjectiu amb adverbi derivat en -ment documentat. + la suma de les dues marques anteriors.

Les altres marques van afegides al mot en el punt en què es localitza l'element que se'n veu afectat. Vegem-ne alguns exemples (i, de passada, els accents):

Rec. codi mot: explicació
176 001 ABOC<ELLAR: en les formes rizotòniques, la "e" és tancada.
277 130 ABRI#%ULLs: dièresi sobre la vocal següent.
420 001 ACAL<ORAR: en les formes rizotòniques, la "o" és tancada.
670 181 ACIDO:CATALITZAT: el mot és compost i l'element anterior a la frontera és esdrúixol.
673 123 ACIDO:F/ILIA: accent tancat sobre la vocal següent.
677 123 ACIDO:RESIST\ENCIA: accent obert sobre la vocal següent.
976 157 ACRO=SOMA: compost amb prefix àton: resol el problema de les "s", "r" i "x" inicials interior.
1520 123 AERO=SOL#TER\APIA: el mot és compost i es pot detectar automàticament l'accent de l'element que precedeix la frontera.
1754 144 AF>ORES: la vocal següent ha de ser sostreta a la regla que la faria tancada.
3789 158 AM<Or: la "erra" no ha de ser emmudida
5025 130 APAGA#LLUMs: el mot és singular però conté un plural.
8853 123 BAUxITA: cal transcriure aquesta "ics" com a [ks].
13467 158 C\ASTIg: cal tanscriure aquesta "ge" com a [k].
15718 158 COmDOR: cal impedir que aquesta "ema" sigui assimilada.
35798 158 i/O: cal mantenir el caràcter no consonàntic d'aquesta "i".

La base de dades que conté el diccionari de primitiu s'anomena DICCIO.DBF i ocupa poc menys de nou megaoctets.

La flexió.

Per obtenir la flexió ha calgut agrupar els mots en models formals. Per exemple "aprendre" i "comprendre" segueixen el mateix model, perquè un cop tipificats en un dels dos el conjunt de canvis a fer per obtenir-ne tot el paradigma, els mateixos canvis donen el resultat correcte en l'altre; en canvi, "prendre" no segueix el mateix model formal, perquè té algunes formes monosil·làbiques tòniques sense accent gràfic que en els seus derivats són polisil·làbiques amb accent gràfic (pren / aprèn - pres / après), de manera que "prendre" és associat a un altre model.

Ha calgut establir el codi de flexió per a cadascun dels més de 68000 mots primitius, de manera que no ens hem deturat a contemplar casos d'al·lomorfisme: cada forma possible hi és un sol cop, encara que teòricament pugui aparèixer duplicada, com "ves - veges". hem explicitat totes les formes que manquen a l'apèndix sobre formes verbals no incloses. Hem procurat triar l'alternativa més viva o la més acostada a la pràctica oral, de manera que hem preferit "frescos" a "frescs".

Quan el diccionari atribueix dues flexions diferents al mateix mot, com a "acompanyant", aquest apareix dues vegades amb dos codis diferents. Això passa més sovint del que podria semblar, amb la conseqüència que als llistats de resultats el mot apareix dues vegades avaluem la importància d'aquestes repeticions a l'apèndix sobre formes repetides. .

Hem de deixar constància, finalment, del fet que al nostre corpus no hi ha verbs defectius: tots tenen tota la flexió. Això ha reduït el nombre de models. A més, en usos metafòrics, qualsevol forma d'un verb defectiu és possible: "estic que trono", ...

Els fitxers sil·làbics.

En el moment de planificar l'estructura del fitxer que havia de contenir la base de dades sil·làbica, el factor que més ens condicionava era el volum que pogués arribar a adquirir, no només per la quantitat de memòria necessària, sinó també pel temps d'execució necessari per llegir el conjunt de les dades.

A més, ens interessava la possibilitat de recuperar les síl·labes de tres maneres diferents:

en funció de la síl·laba com a totalitat;
discriminant cadascuna de les tres fases de la síl·laba, quan hi són: explosió, nucli i implosió;
considerant la síl·laba com la seqüència de sis posicions (C(C))V(C(C(C))), que podríem numerar P1, P2, P3, P4, P5 i P6; d'aquestes posicions, només P3 és obligatòria, en principi; P2 només pot tenir contingut si també en té P1; P6 només en pot tenir si en té P5 i aquesta, si en té P4.

Per aconseguir aquesta triple possibilitat, hem farcit cada síl·laba amb blancs a les posicions que romanien buides, de manera que la vocal sempre apareix en tercera posició: si volem dades per posició, explorem el caràcter X de la síl·laba; si volem explorar per fases, explorem els dos primers caràcters per a l'explosió i els tres darrers per a la implosió (explosió=P1+P2, nucli=P3 i implosió=P4+P5+P6); si volem la síl·laba sense referència a posicions o fases, obtenim P1+P2+P3+P4+P5+P6 i n'eliminem els espais buits (=caràcter blanc).

Després de diverses provatures, ens hem inclinat per un model compactat, en què les informacions estan combinades per ocupar el mínim possible, que són vuit caràcters per síl·laba: dos per a la síl·laba, tres per al número que permet localitzar el primitiu del qual deriva el mot que conté la síl·laba, un per al caràcter tònic o àton de la síl·laba, un per a l'identificador de derivat, que permet saber quina de les paraules que deriven del mateix primitiu és la que conté la síl·laba i un per a la compactació de dues informacions: número d'ordre de la síl·laba dins del mot i tipus posicional de la síl·laba, que és un del conjunt {inicial absolut, inicial interior, final absolut, final interior, unisil·làbic absolut, unisil·làbic interior, medial}. El fitxer sil·làbic s'anomena SY.R08 i ocupa aproximadament 19 megaoctets.

Per compactar la síl·laba a dos octets, s'han tractat com a seqüència de setze bits, dels quals els tres primers codifiquen la vocal pel seu ordinal en la llista de vocals possibles, els sis següents codifiquen el grup de zero, una o dues consonants que hi ha a l'inici de la síl·laba (seixanta-quatre possibilitats, de les quals se n'usen 37) i els set restants codifiquen el grup de zero, una, dues o tres consonants que hi ha al final de la síl·laba (cent vint-i-vuit possibilitats, de les quals se n'usen 87). Cal remarcar que els dos octets resultants poden prendre valors entre zero i dos-cents cinquanta-cinc; però aquí no ens crea cap problema, perquè, encara que el codi 250, p.e., correspongui a dos caràcters diferents en màquines que no tinguin el mateix sistema operatiu, per a nosaltres sempre significarà el valor numèric que resta idèntic.

El número del primitiu en la base de dades DICCIO s'ha hagut de codificar en tres octets perquè el nombre de primitius és superior a 216.

Les dades estan contingudes a SY.R08 en ordre seqüencial de generació: la primera síl·laba del primer derivat del primer primitiu de DICCIO, la segona síl·laba..., fins a la darrera síl·laba del darrer derivat del darrer primitiu. Això ens permet un accés aleatori a qualsevol mot: cerquem el seu primitiu a DICCIO i en funció del número del registre que el conté, cerquem binàriament a SY.R08, fins que una de les síl·labes conté el mateix número de mot; llavors retrocedim o avancem uns quants registres, fins que trobem el número de derivat que pertoca al mot que ens interessa.

L'estructura de SY.R08 és idònia quan cerquem mots sencers, però quan ens interessen dades numèriques sobre les síl·labes o llistats de mots amb la mateixa síl·laba, ens caldria una lectura seqüencial de tot el fitxer. Per això tenim una versió comprimida de SY.R08, anomenada SYPA.R08, que ocupa cinc megaoctets i mig, i que té acumulades totes les ocurrències de la mateixa síl·laba entre els mots derivats d'un mateix primitiu en un sol registre. Això explica que sigui molt menys voluminós i que no permeti arribar a cada derivat en particular. A més, no està ordenat pel primitiu, sinó per la síl·laba, cosa que ens permet llistar ràpidament tots els primitius dels mots que tenen la mateixa síl·laba.

A tall de mostra, llistem a continuació alguns registres de SY.R08 descompactats i afegint-hi el primitiu. Les dades que hi ha són, d'esquerra a dreta, el número de registre de SY.R08, la síl·laba, el número de primitiu a DICCIO, tònica vs. àtona, el número de derivat, el tipus posicional (I=inicial absolut, i=inicial interior, F=final absolut, f=final interior, U=unisil·làbic absolut, u=unisil·làbic interior, m=medial), el número de la síl·laba dins del mot i el primitiu tal com consta a DICCIO. Si presentéssim tota la base de dades sil·làbica amb aquest format ocuparia més de trenta mil pàgines...

0000001 __A____ 00001 A 1 U 1 A 0000002 __A____ 00002 T 2 U 1 A 0000003 __As___ 00002 T 4 U 1 A 0000004 __Ap___ 00003 T 1 U 1 AB 0000005 __Aps__ 00003 T 3 U 1 AB 0000006 __A____ 00004 A 1 I 1 ABABOL 0000007 b_A____ 00004 A 1 m 2 ABABOL 0000008 b_Ol___ 00004 T 1 F 3 ABABOL 0000009 __A____ 00004 A 3 I 1 ABABOL 0000010 b_A____ 00004 A 3 m 2 ABABOL 0000011 b_Ols__ 00004 T 3 F 3 ABABOL 0000012 __A____ 00005 A 2 I 1 ABABOLERA 0000013 b_A____ 00005 A 2 m 2 ABABOLERA 0000014 b_o____ 00005 A 2 m 3 ABABOLERA 0000015 l_e____ 00005 T 2 m 4 ABABOLERA 0000016 r_A____ 00005 A 2 F 5 ABABOLERA 0000017 __A____ 00005 A 4 I 1 ABABOLERA 0000018 b_A____ 00005 A 4 m 2 ABABOLERA 0000019 b_o____ 00005 A 4 m 3 ABABOLERA 0000020 l_e____ 00005 T 4 m 4 ABABOLERA 0000021 r_es___ 00005 A 4 F 5 ABABOLERA 0000022 __A____ 00006 T 1 I 1 \ABAC 0000023 b_Ak___ 00006 A 1 F 2 \ABAC 0000024 __A____ 00006 T 3 I 1 \ABAC 0000025 b_Aks__ 00006 A 3 F 2 \ABAC 0000026 __A____ 00007 A 1 I 1 ABAC\A 0000027 b_A____ 00007 A 1 m 2 ABAC\A 0000028 k_A____ 00007 T 1 F 3 ABAC\A 0000029 __A____ 00007 A 3 I 1 ABAC\A 0000030 b_A____ 00007 A 3 m 2 ABAC\A 0000331 __A____ 00009 A 1 I 1 ABACIAL 0000332 b_A____ 00009 A 1 m 2 ABACIAL 0000333 s_i____ 00009 A 1 m 3 ABACIAL 0000334 __Al___ 00009 T 1 F 4 ABACIAL 0000335 __A____ 00009 A 2 I 1 ABACIAL 0000336 b_A____ 00009 A 2 m 2 ABACIAL 0000337 s_i____ 00009 A 2 m 3 ABACIAL 0000338 __Al___ 00009 T 2 F 4 ABACIAL 0000339 __A____ 00009 A 3 I 1 ABACIAL 0000340 b_A____ 00009 A 3 m 2 ABACIAL 0000341 s_i____ 00009 A 3 m 3 ABACIAL 0000342 __Als__ 00009 T 3 F 4 ABACIAL 0000343 __A____ 00009 A 4 I 1 ABACIAL 0000344 b_A____ 00009 A 4 m 2 ABACIAL 0000345 s_i____ 00009 A 4 m 3 ABACIAL 0000346 __Als__ 00009 T 4 F 4 ABACIAL 0000347 __A____ 00010 A 1 I 1 ABACIOLOGI 0000348 b_A____ 00010 A 1 m 2 ABACIOLOGI 0000349 s_i____ 00010 A 1 m 3 ABACIOLOGI 0000350 __o____ 00010 A 1 m 4 ABACIOLOGI 0000351 l_O____ 00010 T 1 m 5 ABACIOLOGI 0000352 Z_i____ 00010 A 1 F 6 ABACIOLOGI 0000353 __A____ 00010 A 3 I 1 ABACIOLOGI 0000354 b_A____ 00010 A 3 m 2 ABACIOLOGI 0000355 s_i____ 00010 A 3 m 3 ABACIOLOGI 0000356 __o____ 00010 A 3 m 4 ABACIOLOGI 0000357 l_O____ 00010 T 3 m 5 ABACIOLOGI 0000358 Z_is___ 00010 A 3 F 6 ABACIOLOGI 0000359 __A____ 00011 A 1 I 1 ABACISTA 0000360 b_A____ 00011 A 1 m 2 ABACISTA 0000361 s_is___ 00011 T 1 m 3 ABACISTA 0000362 t_A____ 00011 A 1 F 4 ABACISTA 0000363 __A____ 00011 A 2 I 1 ABACISTA 0000364 b_A____ 00011 A 2 m 2 ABACISTA 0000365 s_is___ 00011 T 2 m 3 ABACISTA 0000366 t_A____ 00011 A 2 F 4 ABACISTA 0000367 __A____ 00011 A 3 I 1 ABACISTA 0000368 b_A____ 00011 A 3 m 2 ABACISTA 0000369 s_is___ 00011 T 3 m 3 ABACISTA 0000370 t_es___ 00011 A 3 F 4 ABACISTA 0000371 __A____ 00011 A 4 I 1 ABACISTA 0000372 b_A____ 00011 A 4 m 2 ABACISTA 0000373 s_is___ 00011 T 4 m 3 ABACISTA 0000374 t_es___ 00011 A 4 F 4 ABACISTA 0000375 __A____ 00012 A 1 I 1 ABACOmTAT 0000376 b_A____ 00012 A 1 m 2 ABACOmTAT 0000377 k_om___ 00012 A 1 m 3 ABACOmTAT 0000378 t_At___ 00012 T 1 F 4 ABACOmTAT 0000379 __A____ 00012 A 3 I 1 ABACOmTAT 0000380 b_A____ 00012 A 3 m 2 ABACOmTAT 0000381 k_om___ 00012 A 3 m 3 ABACOmTAT 0000382 t_Ats__ 00012 T 3 F 4 ABACOmTAT 0000383 __A____ 00013 A 1 I 1 ABAC<OmTE 0000384 b_A____ 00013 A 1 m 2 ABAC<OmTE 0000385 k_om___ 00013 T 1 m 3 ABAC<OmTE 0000386 t_e____ 00013 A 1 F 4 ABAC<OmTE 0000387 __A____ 00013 A 3 I 1 ABAC<OmTE 0000388 b_A____ 00013 A 3 m 2 ABAC<OmTE 0000389 k_om___ 00013 T 3 m 3 ABAC<OmTE 0000390 t_es___ 00013 A 3 F 4 ABAC<OmTE 0000391 __A____ 00014 A 1 I 1 ABADAL 0000392 b_A____ 00014 A 1 m 2 ABADAL 0000393 d_Al___ 00014 T 1 F 3 ABADAL 0000394 __A____ 00014 A 2 I 1 ABADAL 0000395 b_A____ 00014 A 2 m 2 ABADAL 0000396 d_Al___ 00014 T 2 F 3 ABADAL 0000397 __A____ 00014 A 3 I 1 ABADAL 0000398 b_A____ 00014 A 3 m 2 ABADAL 0000399 d_Als__ 00014 T 3 F 3 ABADAL 0000400 __A____ 00014 A 4 I 1 ABADAL 0000401 b_A____ 00014 A 4 m 2 ABADAL 0000402 d_Als__ 00014 T 4 F 3 ABADAL 2000099 r_A____ 55111 A 1 I 1 RAPINYER 2000100 p_i____ 55111 A 1 m 2 RAPINYER 2000101 Y_er___ 55111 T 1 F 3 RAPINYER 2000102 r_A____ 55111 A 2 I 1 RAPINYER 2000103 p_i____ 55111 A 2 m 2 RAPINYER 2000104 Y_e____ 55111 T 2 m 3 RAPINYER 2000105 r_A____ 55111 A 2 F 4 RAPINYER 2000106 r_A____ 55111 A 3 I 1 RAPINYER 2000107 p_i____ 55111 A 3 m 2 RAPINYER 2000108 Y_ers__ 55111 T 3 F 3 RAPINYER 2000109 r_A____ 55111 A 4 I 1 RAPINYER 2000110 p_i____ 55111 A 4 m 2 RAPINYER 2000111 Y_e____ 55111 T 4 m 3 RAPINYER 2000112 r_es___ 55111 A 4 F 4 RAPINYER 2000113 r_A____ 55112 A 1 I 1 RAPIR 2000114 p_ir___ 55112 T 1 F 2 RAPIR 2000115 r_A____ 55112 A 2 I 1 RAPIR 2000116 p_int__ 55112 T 2 F 2 RAPIR 2000117 r_A____ 55112 A 3 I 1 RAPIR 2000118 p_it___ 55112 T 3 F 2 RAPIR 2000119 r_A____ 55112 A 4 I 1 RAPIR 2000120 p_i____ 55112 T 4 m 2 RAPIR 2000121 d_A____ 55112 A 4 F 3 RAPIR 2000122 r_A____ 55112 A 5 I 1 RAPIR 2000123 p_its__ 55112 T 5 F 2 RAPIR 2000124 r_A____ 55112 A 6 I 1 RAPIR 2000125 p_i____ 55112 T 6 m 2 RAPIR 2000126 d_es___ 55112 A 6 F 3 RAPIR 2000127 r_A____ 55112 A 7 I 1 RAPIR 2000128 p_E____ 55112 T 7 m 2 RAPIR 2000129 S_o____ 55112 A 7 F 3 RAPIR 2000130 r_A____ 55112 A 8 I 1 RAPIR 2000131 p_E____ 55112 T 8 m 2 RAPIR 2000132 S_es___ 55112 A 8 F 3 RAPIR 2000133 r_A____ 55112 A 9 I 1 RAPIR 2000134 p_ES___ 55112 T 9 F 2 RAPIR 2000135 r_A____ 55112 A 10 I 1 RAPIR 2000136 p_im___ 55112 T 10 F 2 RAPIR 2000137 r_A____ 55112 A 11 I 1 RAPIR 2000138 p_iw___ 55112 T 11 F 2 RAPIR 2000139 r_A____ 55112 A 12 I 1 RAPIR 2000140 p_E____ 55112 T 12 m 2 RAPIR 2000141 S_en___ 55112 A 12 F 3 RAPIR 2000142 r_A____ 55112 A 13 I 1 RAPIR 2000143 p_i____ 55112 T 13 m 2 RAPIR 2000144 __A____ 55112 A 13 F 3 RAPIR 2000145 r_A____ 55112 A 14 I 1 RAPIR 2000146 p_i____ 55112 T 14 m 2 RAPIR 2000147 __es___ 55112 A 14 F 3 RAPIR 2000148 r_A____ 55112 A 15 I 1 RAPIR 2000149 p_i____ 55112 T 15 m 2 RAPIR 2000150 __A____ 55112 A 15 F 3 RAPIR 2000151 r_A____ 55112 A 16 I 1 RAPIR 2000152 p_i____ 55112 T 16 m 2 RAPIR 2000153 __em___ 55112 A 16 F 3 RAPIR 2000154 r_A____ 55112 A 17 I 1 RAPIR 2000155 p_i____ 55112 T 17 m 2 RAPIR 2000156 __ew___ 55112 A 17 F 3 RAPIR 2000157 r_A____ 55112 A 18 I 1 RAPIR 2000158 p_i____ 55112 T 18 m 2 RAPIR 2000159 __en___ 55112 A 18 F 3 RAPIR 2000160 r_A____ 55112 A 19 I 1 RAPIR 2000161 p_i____ 55112 T 19 F 2 RAPIR 2000162 r_A____ 55112 A 20 I 1 RAPIR 2000163 p_i____ 55112 T 20 m 2 RAPIR 2000164 r_es___ 55112 A 20 F 3 RAPIR 2000165 r_A____ 55112 A 21 I 1 RAPIR 2000166 p_i____ 55112 T 21 F 2 RAPIR 2000167 r_A____ 55112 A 22 I 1 RAPIR 2000168 p_i____ 55112 T 22 m 2 RAPIR 2000169 r_em___ 55112 A 22 F 3 RAPIR 2000170 r_A____ 55112 A 23 I 1 RAPIR 2000171 p_i____ 55112 T 23 m 2 RAPIR 2000172 r_ew___ 55112 A 23 F 3 RAPIR 2000173 r_A____ 55112 A 24 I 1 RAPIR 2000174 p_i____ 55112 T 24 m 2 RAPIR 2000175 r_en___ 55112 A 24 F 3 RAPIR 2000176 r_A____ 55112 A 25 I 1 RAPIR 2000177 p_i____ 55112 A 25 m 2 RAPIR 2000178 r_e____ 55112 T 25 F 3 RAPIR 2000179 r_A____ 55112 A 26 I 1 RAPIR 2000180 p_i____ 55112 A 26 m 2 RAPIR 2000181 r_As___ 55112 T 26 F 3 RAPIR 2000182 r_A____ 55112 A 27 I 1 RAPIR 2000183 p_i____ 55112 A 27 m 2 RAPIR 2000184 r_A____ 55112 T 27 F 3 RAPIR 2000185 r_A____ 55112 A 28 I 1 RAPIR 2000186 p_i____ 55112 A 28 m 2 RAPIR 2000187 r_Em___ 55112 T 28 F 3 RAPIR 2000188 r_A____ 55112 A 29 I 1 RAPIR 2000189 p_i____ 55112 A 29 m 2 RAPIR 2000190 r_Ew___ 55112 T 29 F 3 RAPIR 2000191 r_A____ 55112 A 30 I 1 RAPIR 2000192 p_i____ 55112 A 30 m 2 RAPIR 2000193 r_An___ 55112 T 30 F 3 RAPIR 2000194 r_A____ 55112 A 31 I 1 RAPIR 2000195 p_i____ 55112 A 31 m 2 RAPIR 2000196 r_i____ 55112 T 31 m 3 RAPIR 2000197 __A____ 55112 A 31 F 4 RAPIR 2000198 r_A____ 55112 A 32 I 1 RAPIR 2000199 p_i____ 55112 A 32 m 2 RAPIR 2000200 r_i____ 55112 T 32 m 3 RAPIR

Transcripció automatitzada.

Aquest capítol no ha estat convertit a HTML. L'autor considera que es tracta de material sensible i confia la custòdia d'aquesta part als mecanismes tradicionals de consulta de les tesis doctorals, esperant que el lector se'n farà càrrec.

Qüestions no resoltes.

Les bases de dades, en el seu estat actual, presenten algun problema que cal tenir en compte a l'hora d'analitzar els resultats.

En primer lloc, tenim el problema de les "e" i "o" tòniques: no hem revisat una per una totes les ocasions en què una "e" o una "o" han estat marcades automàticament com a obertes o tancades sense tenir una evidència ortogràfica. Tampoc no s'han tractat els casos en què la mateixa paraula pot ser pronunciada amb qualsevol dels dos graus, com "sense". Això implica que no es pot treure cap conclusió vàlida sobre la distribució d'aquestes vocals entre si.

En segon lloc, cal tenir en compte que només hem introduït aquelles marques que eren indispensables (i potser ens n'hem deixat alguna) per transcriure correctament; això fa que, p.e., alguns prefixos no estiguin tractats d'una manera sistemàtica; no temem, però, que això afecti els resultats.

Finalment, moltes de les duplicitats que hi ha al corpus són, per al nostre treball, innecessàries, com, p.e., imprès, que consta com a substantiu i que també s'obté a partir de imprimir. Com aquest cas n'hi ha molts, de mots duplicats perquè tenen entrades diferents al diccionari. No és el cas de dur o fer (verb i adjectiu), perquè en aquests casos la flexió de cada mot no és idèntica. Ens hauria agradat eliminar aquestes duplicitats ja en la versió actual, però no ha estat possible.