EKSPERIMENTO PRI STATISTIKA DETERMINADO DE BAZAJ KATEGORIOJ

Ken Miner

Januaro, 2004

Resumo: Jam delonge oni supozas, ke esperanta radiko estas baze verba, substantiva, aŭ adjektiva; sed ne eblis trovi vere nearbitran rimedon determini, al kiu kategorio apartenas donata radiko. Mi sugestas, almenaŭ eksperimente, statistikan rimedon.

En mia ĉi-paĝara artikolo "Prova sistema analizo de esperanta morfologio" (kiu tre bezonas rearanĝon), mi priskribis la problemon, ke ŝajne ne ekzistas nearbitra metodo por determini, ĉu donata esperanta radiko estas baze substantiva aŭ verba (paragrafo 3.0 kaj aparte piednoto 10). Mi konkludis (kaj mi certe ne estas la unusola), ke la jam proponitaj rimedoj vere ne funkcias aŭ funkcias svage. (Mi ne ripetas tiujn diskutojn ĉi tie; la interesato bv. konsulti la ĵusmenciitajn partojn de mia artikolo.)

Fine de piednoto 10 de mia artikolo mi skribis:

Ebla solvo: la statistike pli oftaj formoj estas bazaj. Ekzemple se pli oftas 'ludi', 'ludas', 'ludis', ..., ol 'ludo', 'ludoj', ..., tio indikas, ke la baza formo estas verba. Mi ne dubas, ke statiskikaj serĉoj en multaj kazoj pravigus niajn intuiciojn; sed probable ne en ciuj kazoj.

Kun la apero de la Tekstaro de Esperanto — dumilionvorta priserĉebla korpuso — ekhaveblis rimedo efektive esplori statistikan aliron al la problemo.

Simpla verbo finiĝas per verba finaĵo (-I, -AS, -IS, -OS, -US aŭ -U) kun aŭ sen -AD-; participo havas participan sufikson (-A(N)T-, -I(N)T-, -O(N)T- kun aŭ sen -AD-, kun finaĵoj -A (J) aŭ E. Klara substantivo finiĝas per
-O(J)(N). (Estas neevitebla problemo pri -AD- ĉar ĝi povas principe uziĝi kun ĉiaspecaj radikoj; do mi simple ekskludis -AD- el serĉoj por substantivaj formoj. Mi ankaŭ pro konveno ignoris maloftajn formojn kiel 'estintus', 'legotas', ktp.)

Facilaj kazoj. Facilaj kazoj ne prezentas problemojn ĉar la kutimaj rimedoj sufiĉas; ili utilas kiel kontroloj de la metodo. Ekzemple 'lud-' estas klare verba radiko. Se oni serĉas en la tekstaro ĝiajn verbajn formojn oni ricevas 320 trafojn; substantivajn formojn, 69 trafojn. Do verba laŭ la metodo.

Alia facila kazo estas 'naĝ-': verbaj formoj, 115 trafoj; substantivaj formoj, 0 trafojn. Do verba laŭ la metodo.

Malfacilaj kazoj. En paragrafo 3.0 de mia artikolo mi skribis:

'Serv-' ankaŭ ŝancelas nian konfidon pri la o-forma metodo: 'servo' lau PIV2 estas 1., 2. tasko, 3. fako, 4. agospeco. Tasko kaj agospeco estas agoj, sed ŝajne fako estas aĵo. Ĉu miksa evidento? En PMEG 'serv-' kontrastas kun 'sklav-' kaj sklavo nepre estas homo, do aĵo; sekve 'serv-' devas esti verba. Nu, eble ni povas diri, ke fako estas ago en iu subtila senco.

En la Tekstaro troviĝis 533 verboformoj de 'serv-', kompare kun 140 substantivaj formoj. Tiu radiko do estas statistike verba.

Pri 'aŭgur-' mi skribis:

Laŭ PIV2 'aŭguro' estas 1. signo, 2. antaŭsigno. Tiuj estas aĵoj, do ni konkludu, ke 'aŭgur-' estas baze substantiva. Sed la paro 'aŭgur-'/'profet-' estas ekzemplo de kontrasto en PMEG, kaj ne estas ia dubo, ke 'profet-' estas baze substantiva. SXajnas do, ke por Wennergren 'aŭgur-' estas baze verba.

Wennergren jam antaŭe rimarkinte la problemon forigis tiun ekzemplon el la plej lasta PMEG. Tamen la statistika metodo sugestas, ke 'aŭgur-' estas baze verba: 17 trafoj de verboformoj, 5 trafoj de substantivaj formoj. Por 'profet-', kiel atendite, montriĝis 128 trafoj de la verbaj formoj, 538 trafoj de substantivaj formoj.

En mia artikolo mi ankaŭ levis la problemon ke ekzemple "'pentri', 'raboti', 'plugi', 'segi', 'ŝoveli', 'munti', 'teksi', 'garni', 'ŝtopi', 'regi', 'kaperi', 'vegeti' kaj fakte nia amiko 'kombi'" ne havas o-formojn en PIV2; sekve oni ne povas uzi la o-forman metodon por decidi, ĉu iliaj radikoj estas baze verbaj aŭ baze substantivaj. Serĉo de la respondaj o-formoj en la Tekstaro donas jenajn rezultojn:

pentr-: verbaj formoj, 81; substantivaj formoj, 0.
rabot-: verbaj formoj, 1; substantivaj formoj, 0.
plug-: verbaj formoj, 29; substantivaj formoj, 0.
seg-: verbaj formoj, 4; substantivaj formoj, 0.
ŝovel-: verbaj formoj, 4; substantivaj formoj, 0.
munt-: verbaj formoj, 4; substantivaj formoj, 0.
teks-: verbaj formoj, 22; substantivaj formoj, 0.
garn-: verbaj formoj, 9; substantivaj formoj, 0.
ŝtop-: verbaj formoj, 36; substantivaj formoj, 3 (!)
reg-: verbaj formoj, 580; substantivaj formoj, 9 (!)
kaper-: verbaj formoj, 0; substantivaj formoj, 0.
veget-: verbaj formoj, 0; substantivajj formoj, 0.
komb-: verbaj formoj, 21; substantivaj formoj, 0.

Do ĉiuj verbaj laŭ la metodo; interese tamen, ke du radikoj ('ŝtop-' kaj 'reg-') ja havas kelkajn o-formojn en la Tekstaro, kvankam tiuj ne menciiĝis en PIV2. Ankaŭ la rezultoj akcentas la limojn de la metodo, ĉar ĝi ne helpas ĉe maloftaj radikoj (kiel 'kaper-' kaj 'veget-').

Mi esploris ankaŭ kelkajn aliajn radikojn, kiuj laŭ mia impreso eble havus dubindan kategoriecon; du el ili ('glu-' kaj 'urin-') diskutas Michel Duc Goninaz en PIV2, pĝ. 25):

radiko trafoj de formoj rezultoj
laŭ la metodo
aspekt-: verbaj, 364; substantivaj, 261 verba
bat-: verbaj, 380; substantivaj, 77 verba
danc-: verbaj, 199; substantivaj, 57 verba
dokument-: verbaj, 2; substantivaj, 99 substantiva
fid-: verbaj, 240; substantivaj, 279 substantiva
glu-: verbaj, 9; substantivaj, 1 verba
gust-: verbaj, 4; substantivaj, 83 substantiva
kalkul-: verbaj, 229; substantivaj, 91 verba
komenc-: verbaj, 1204; substantivaj, 289 verba
konflikt-: verbaj, 4; substantivaj, 49 substantiva
merit-: verbaj, 132; substantivaj, 26 verba
papag-: verbaj, 1; substantivaj, 16 substantiva
promes-: verbaj, 217; substantivaj, 199 verba
rul-: verbaj, 22; substantivaj, 5 verba
ŝerc-: verbaj, 36; substantivaj, 44 substantiva
urin-: verbaj, 2; substantivaj, 4 substantiva

Kelkfoje, la distribuo montriĝis preskaŭ egala; ekz. 'fid-', 'ŝerc-'. Eble finfine ni cedu, ke se validas la statistika metodo, do katagorieco estas relativa afero.

Jen la serĉesprimoj, kiujn mi uzis:

verbaj formoj:
V1. \bRADIKO(ad)?\VF\b
V2. \bRADIKO(ad)?(a|i|o)(n)?t(a(j)?|e)\b
(la trafojn de la du mi simple adiciis)

substantivaj formoj:
S. \bRADIKOo(j)?(n)?\b

Mia konkludo estas simple ke eble utilus statistikaj metodoj (kun aŭ sen aliaj rimedoj) por pristudi radikan kategoriecon. La problemo pri transitiveco eble same trakteblus.

Precedencoj. Ĉu iu antaŭe proponis statikstikan aliron al la problemo, kiel objektive determini la bazajn karakterojn de E-radikoj? Longe mi supozis ke ne. Sed André Cherpillod, en sia "Gramatika karaktero de la radikoj" (Lingvaj Babilaĵoj, Eldonejo Blanchetière, 2003, pp 46-55) — forta defendo de radika kategorieco — sen nomi specifan proponinton provas refuti la nocion. En sia listo de kontraŭ-argumentoj li skribas (pĝ. 53):

(3) « La kategorio plej ofte uzata estas nomata la primara vorto de la dirita radiko »

Sed la nocio de kategorio plej ofte uzata malgrandigas la tutan demandon al nura statistika problemo kaj zorge preterlasas la ĉefan aferon: la SIGNIFON de la primara vorto, kaj ankaŭ la signifon de la vortoj sekundaraj, terciaraj, kvaternaraj...

Malgraŭ plurfoja relegado mi konfesas, ke mi ne povas kompreni la refuton de Cherpillod. Supozeble la anonima proponinto de statistika metodo intencis simple, ke la "primara vorto" montru la kategoriecon de sia radiko.

(Dankon al José Antonio Vergara, kiu bonkore sendis al mi kopion de la Cherpillod-a artikolo.)