10 min read

Le mystere du Bourciez... 3D aren azalpena eta datu indusketa

Aurreko postean erakutsi nahi izan ditut 3D sortutako irudiak. Oraingo honetan sakondu nahi dut datuen azterketan bertan.

Ahalegin bati segitzen diot: azaltzen ditudan kontzeptuak eta ideiak, ahal dudan neurrian, datu-erreferentez hornitzeari.

Bourciezen datuen dialektometria MCA erabiliaz

Esana den moduan, datu kategorikoak nola antolatzen diren aztertzen du MCAk, nolabaiteko laburpena egin helburuz. Horrek esan nahi du, hurrengo datuetan:

Table 1: Datuen lagin bat, 16 herri 11 aldagai
veau vendre venir ventre veste vide vin vite vivre voisin voler
1 aratxe saldu jin tripa barneko huts arno bertan · auzo hegaldatu
2 aratxe saldu jin tripa paleto huts arno fite · auzo hegaldaka joan
3 txahal saldu heldu tripa maripulis huts arno laster bizi auzo airean ibili
4 aratxe saldu jin sabel arropa huts ardu bertan · auzo hegaldatu
5 aratxe saldu jin sabel besti huts arno fite · auzo hegaldatu
6 aratxe saldu jin sabel besta huts ardu berehala bizi auzo hegaldatu
7 aratxe saldu jin sabel subesta huts ardu berehala · auzo hegaldazale
8 aratxe saldu etorri barne bestelakoak huts arno fite bizi auzo airean ibili
9 aratxe saldu heldu estomaka paleto huts arno berehala · auzo ·
10 aratxe saldu jin sabel kamisola huts ano zalu bizi auzo hegaldaka joan
11 aratxe saldu · tripa soineko huts arno · · auzo airean ibili
12 aratxe saldu jin sabel maripulis huts arno laster bizi auzo airean ibili
13 txahal saldu jin sabel arropa huts ardu bertan · auzo hegaldazale
14 aratxe saldu jin sabel maripulis huts arno laster bizi auzo airean ibili
15 aratxe saldu jin sabel bestelakoak huts arno berehala bizi auzo airean ibili
16 aratxe saldu jin tripa besta huts ano fite · auzo airean ibili

Adibidean hamaika aldagai ditugu zenbait aldaki dituztenak. Eta hamabi bat hutsune ere bai.

  • veau ( 3 aldaki ) : aratxe ergi txahal
  • vendre ( 1 aldaki ) : saldu
  • venir ( 3 aldaki ) : etorri heldu jin
  • ventre ( 5 aldaki ) : barne estomaka sabel tripa zorro
  • veste ( 15 aldaki ) : arropa barneko besta bestelakoak besti bestimenta gaineko jaketa jantzi kamisola maripulis paleto soineko subesta xamar
  • vide ( 2 aldaki ) : hustu huts
  • vin ( 4 aldaki ) : ano ardo ardu arno
  • vite ( 6 aldaki ) : berehala bertan fite kuxian laster zalu
  • vivre ( 1 aldaki ) : bizi
  • voisin ( 1 aldaki ) : auzo
  • voler ( 11 aldaki ) : airatu airean erabili airean ibili airean ibilki airean joan bolatu hegalda hegaldaka joan hegaldakatu hegaldatu hegaldazale

Segur naiz zenbaitek, kasu horiek ikusita, pentsa lezaketela heldu ez dela jin edo etorriren baliokide. Edota helgaldazale hitzak eta airatuk ikuskera desberdinegitik daudela pentsatuta.

Onar nezake arazotzat hori, ez balitz datuen osotasunaren analisiak emaitza koherenteak ematen dituelako. Bibliografiarekin eta geografiarekin koherenteak.

Datu hutsuneak ere nabarmeak dira datu basean; eta aurrez emandako baieztapenarekin bat etor daitekeela uste daitekeen arren, bestelako eragina dute analisian. Baina analisia analizatu behar dugu horixe ikusteko.

Datuen MCA (Multiple Correspondence Analysis)

Interpretatzen zailak izan daitezke korrelazio anizkoitzak sortzen dituen irudiak, aldagaiak edo banakoak (gure kasuan, herriak) ugariak direnean. Besteak besste, hurrengo irudiek 137 herri eta 248 aldagai asko direla erakusten dute.

MCA irudia

Figure 1: MCA irudia

Irudi horretako x eta y ardatzetan irakurtzen da lehenengo dimentsioek (2/136) bariazio guztiaren hamarretik bat ere ez dutela azaltzen. x ardatzean %6.24 eta y ardatzean %3.01, hain zuzen.

Erabili dudan teknikak eta erremintak, baina, uzten du faktoreen inguruko analisia era agerikoagoan egiten. Horrela, goiko datu-hodei ulergaitz horiek mehaztu ahal dira pazientziaz.

Hurrengo irudi bietan aurreko irudietako informazioa era bitara mehaztuta: Batean kuantitatiboki egin da inausketa (50 garrantzitsuenak erakusteko eskatu zaio) eta bestean kualitatiboki (vin kontzeptua emateko hiru aldaerak eskatuta)

Bigarren hirudian irudikatuta dauden ardu eta arno aldakiak ez dira lehenengoan agertzen, aldaki bi horiek ez daudelako lehenengo bi dimentsio horien 50 osagai nagusietan. Beste aldakia berriz, agerian dago beheko eskumako koadrantean.

Era berean, herriak eta aldakiak batera irudika daitezke, nola banatzen diren aztertzeko.

Oraingoan lehenengo bi irudietan osagaiak irizpide kuantitatiboekin eskatu dira: 20 garrantzitsuenak lehenengoan, eta bigarrenean bi dimentsioetako lau koadranteak irudikatzeko gutxieneko kopurua eskatu da (25 herri eta 45 aldaki). Horrek zubereraren trinkotasuna irudikatzen du. Azken irudian hasierako taulako aldagai bitako zazpi aldaki eta 11 herri aukeratu dira irudikatzeko.

Irudikatze kalitatea eta dimentsioak: Ordezkagarritasuna

Analisi era honek kuantifikatzen du, besteak beste, aldagai bakoitza zelako ondo edo txarto dagoen irudikatuta dimentsio bakoitzean. Aldagaia diot, baina, berez, elementu zehatzagoa litzateke, herri bakoitza eta item bakoitzeko aldaki bakoitzaren ordezkagarritasuna ere neurtzen ditu.

Hurrengo grafikoetan irudikatzen da dimentsio bakoitzean ondoen irudikatuta dauden 40 herriak.

Irudiak ikusita, lehenengoan antzematen da Dim-1 horretan Zuberoa ordezkatzen dela gehienbat eta bigarren maila batean Lapurdi oposaketan. Bigarrenak, berriz, ematen du Amikuze ingurua eta Lapurdi irudikatzen dituela. Hirugarrenak, Nafarroa Behereko herriak, Zuberoko eta Lapurdikoren batekin nahastean ematen ditu.

Baina, bistan denez, garrantzia du zer ikusteak: Ea analisi era hau erabilita herriak ordezkatzen diren ala ez; horretarako eta hiru dimentsiorekin ari garenez bueltaka, ikus dezakegu hiru dimentsiootan zein diren eta zelan dauden ordezkatuta herriak

Lehenengo hiru dimentsioen ordezkagarritasuna, herrien ikuskera

Figure 2: Lehenengo hiru dimentsioen ordezkagarritasuna, herrien ikuskera

Beste analisi batzuk erakutsia dutena gogoan hartuaz, erraz ulertzen da Zuberoa aldeko hizkerak ordezkatuen agertzea, Zuberoko berbetak baitira euren artean trinkotasunik handiena erakutsi dutena bestelako dialektometrietan.

Dimentsioak zerk eta zelan osatzen duen

Supermerkatura noanean sarri begiratzen dut ea palma olioduna berriro sartu nahi didaten. Ba, interesgarri deritzot Dim-1, Dim-2 edo Plim-\(\alpha\) dalakoak barruan zer duen ikusteari. Konkordantzia analisiak hori ere identifikatzen du; begiratu daiteke zein aldakik edo zein herrik sortzen duen zein neurritan aztertzen ari garen dimentsioa.

Gardentasun horren erakusgarri, lehenego dimentsioaren osaera erakusten da segidan. Lehenengoaren (Dim-1) hasiera erakusten den moduan, 125.aren 7. osagaia ere erakuts liteke.

Herriak eta aldagaiak

Dim-1 Lehenengo 50 osagairik garrantzitsuenak

Figure 3: Dim-1 Lehenengo 50 osagairik garrantzitsuenak

Eta horrek zer esan nahi duen hizkuntzalariek esatea dute. Nik gaur esan dezaket, biribilkeriarik gabe, datu guztien bariazioaren %6.2404993 azaltzen duen Dim-1 horretako % 78.32 erakusten dela lehenengo irudian, herrien gaineko informazioaz. Bai, biribilduta. Eta bigarrenean % 34.54 erakusten dela aldagai eta aldakietakoaz.

1D analisia: Pisua eta garrantziaren inguruko azterketa.

Tarte honetan MCAk sortutako dimentsio horiei begiratu behar zaie banaka… baina hiruko ikuskera hori ahaztu barik. Horretarako dimentsio bakarreko grafikoak egiten dira, baina mapan agerturiko koloreak desagertu barik.

Irudi hirukoitzak proposatzen ditut azterketaren zati honetarako (laukoitzak izan zitezkeen, baina ikusiko denez hiru horiek nahi izan ditut). Lehenengo zatiak irudikatzen ditu herriak aztertzen diren dimentsioan, dimentsio horri egiten dioten ekarpenaren arabera. Bigarren irudiak hurrenkerarako irizpide berberekin aldakiak ageri dira1. Hirugarrenak, azkenik, ordezkarraitasunaren arabera erakusten ditu herriak berriro. Laugarren batek azal litzake aldakien ordezkagarritasuna dimentsio bakoitzean. Ez dugu holakorik egin, ordea.

Lehenengo dimentsioa: Dim-1

Dim-1. Bariazioaren 6.24  azaltzen du

Figure 4: Dim-1. Bariazioaren 6.24 azaltzen du

Irudia nahiko koherentea da mapan ikusten denarekin. Bai dimentsioari egiten dioten ekarpenen arabera zein zein neurritara dauden islatuta dimentsio horretan, lehenengo nabarmentzen dira Zuberoako hizkerak eta hurrengo Lapurdikoak, pixkana-pikana Baxe Nafarroakoak agertzen hasten direla. Kausistikak azaldu behar lituzke emaitza horietan Etxarri, Arrokiaga eta Pagola herrien kokapena; pentsatzekoa dena baino beheraxeago ageri dira-eta. Espero izatekoa zatekeena baino gorago agertzen dira, besteak beste, Banka, Eiheralarre eta Irulegi, besteak beste.

Bigarren dimentsioa: Dim-2

Aurrekoaren antzera, bigarren dimentsioa irudikatzen da hiru informazio motez: Herrien ekarpena, lehenengoan; bigarrenean, aldakien ekarpena; eta herrien ordezkagarritasuna, hirugarrenean.

Dim-2. Bariazioaren 3.01  azaltzen du

Figure 5: Dim-2. Bariazioaren 3.01 azaltzen du

Bigarren dimentsio honetan, berriz, argi ikusten da Nafarroa - Lapurdi ardatza eta hortik aparte ageri da Zuberoa. Hala ere, koloreak ere erakusten du, Nafarroako herri batzuk (Donapaleu, Azkarate, Eiheralarre…) eta Lapurdiko beste batzuk (Lekuine, Jatsu…) zerrendan azken agertzen dira, ez orezkatuta ez ekarpenik ia eginda.

Hirugarren dimentsioa: Dim-3

Ber sistema erabilita irudikatzen da Dim-3, hirugarren dimentsioa.

Dim-3. Bariazioaren 1.84  azaltzen du

Figure 6: Dim-3. Bariazioaren 1.84 azaltzen du

Dimentsio honetan nahasiago ikusten dira koloreak; berde gehiago beherago agertzeak lioskuke Zuberoko hizkerak ez leudekeela hain ordezkatuta. Baina hierarkiako lehenengo postuetan ere ikusten ditugu Zuberoako hizkeraren bat.

Zer ari dük heben Arrokiaga? pentsa lezake Zuberotarrak hierarkiako 5.ari begiratuta. Ta hala galdetu zidan… dimentsio bakarreko azterketari utzi behar eta gehiago batera erabilita ea zer agertzen den aztertzera jo dezagun.

2D Ikuskera

Hiru dimentsioak koloreekin irudikatzen segituta, 2Dko irudiak aurkezten dira hemen:

2Dko irudikapena bi hiru dimentsiorekin

Figure 7: 2Dko irudikapena bi hiru dimentsiorekin

Irakurleak igarriko zion, akaso: lehenengo irudia ez da besterik goiko MCA irudiko erdiko irudia baino, 3Dko koloreztatze bitxiarekin, bai, baina ez besterik. Irudi horretan nahiko argi ikusten dira aski ezagunak ditugun ezaugarri geografikoak, baina eskuin-ezker aldatuta. Zuberoa berdeskaz ezkerrean, Lapurdiko kostaldea horiskaz eskumaldean goian eta behean eta batez ere gorri indartsuz Nafarroa Behereko lautadak; zenbat eta hegoalderago edo mendebalderako orduan eta apalago agertzen da gorritasun hori. Baina, zer ari duk hor Donapaleu? esan lezake batek baino gehiago.

Bigarren irudian Donapaleu eta Arrokiaga, hor zer ari diren ongi ez dakigun horiek, Banka-eta gorago ageri zaizkigu. Beste bateratze argirik ez da ikusten, aurreko irudien bitartez aipatu gabekorik, behinik behin. 3D azterketarako ordua:

3D azterketa

Hurrengo irudian ageri dira hiru dimentsioak irudikatuta perspektiba adierazi nahi duen irudi batez:

Bourciezen datuen MCA analisia 3D errepresantazioan

Figure 8: Bourciezen datuen MCA analisia 3D errepresantazioan

Aurrekoetan Arrokiaga, Donapaleu, Azkaraten, Banka, Dozunantze, Eiheralarre ikusita izan ditugu. Larresorok ere badu herriok duten ezaugarriren bat, ezaugarriren batzuetan bat datoz herriotako datuok.

Hipotesia

Hirugarren dimentsio horren azalpen handia datuen nolakotasunak eman behar du, ez azalpen geografiko linguistikoa, ez, irizpide mailako azalpena. Irizpide estilistiko edo metodologikoak azaldu behar luke. 3-Dim azaltzeko 1D egindako erdiko irudian zenbait aldagaitan daturik ez agertzeak (NA) pisua duela erakusten du. Beraz, seguruenera datuak falta dituen herrien hierarkia eta 3-Dim aztertzekoa nahikoa bateragarriak izanen dira gorengo balioetan, behintzat.

Froga

Zein dira informazio hutsune gehien dituzten herriak? Horixe aztertu behar da, ea irudiarekin bat datorren informazio hori

Table 2: Herrietako informazio hutsuneak
hutsuneak
Donapaleu 28
Azkarate 21
Larresoro 20
Arrokiaga 19
Banka 19
Duzunaritze-Sarasketa 19
Bidarrai 18
Eiheralarre 16

Eta bai. Hala da, informazio hutsune gehien dituzten herri horiek dira 3D irudian nabarmendu direnak.

Hori bista hutsez 3D irudian baino ez da ikusten, begira beza irakurleak 1D eta 2D herrietan Larresoro herria non agertzen den, bere taldekotik 3D irudian nabarmen desberdintzen bada ere.

Ikusten den hori adierazgarria denentz aztertzeko korrelazio testa egin behar da. Datuak ordinaltzat hartuko ditugu, ez baita informazio garrantzitsua hierarkia eraikitzeko zenbakia hierarkia bera baino; horretarako eta Spearman-en korrelazio testak huts egin dezakeela jakinda (balio pareko asko ditugulako), Kendallen τ kalkulatzea erabaki nuen.

Emaitzok (τ =0.143749, p-balioa=0.017) dioskue baietz, hutsune kopurua eta Dim-3 erlazionatuta daudela.

Berez, hutsuneak uniformeki banatuta baleude, eta ez daude, ez zatekeen erlazio adierazgarririk aurkituko haien artean. Baina aurkitu ditugunez, beste hipotesiren bat egin behar litzateke: hutsune antolatu horien antolaerari buruzkoa.

Nik balienteki, balientekeriatan hasita, hobeki esanda: Bourciezen datuak itzulpenean oinarritu zirenez, ez ote ziren izanen estilo irizpide antzerakoak hartuko herri guzti horietan? Itzulpengintza eta dialektometria bat eginin XIX gizaldiko azterketan.

Jakina, datuak kategorizatzeko irizpideetan, nik hatzamar totoloak eta begi motzak izateak eta bestek ere izango dute esplikazio ahalmenik gaiaz.

Teoriak teoria, egia da datu baseko aldagaietan herri guztietan badaudela bi edo gehiago hutsune. Gehien 28. Hurrengo mapak informazio hori erakusten du.

Balio galduen presentzia irudikatzen duen mapa

Figure 9: Balio galduen presentzia irudikatzen duen mapa

Bistan denez zenbait herri beltzez agertzen dira, bertako daturik ez dago analisiotarako erabili den datu basean.

Bonus track

Segidan, hutsune gehien dituzten lehenengo 20 aldagaiak

Table 3: Aldagaietako informazio hutsune handiak
hutsuneak
aditz trinkoak (zegoelarik) 102
“e-a > a-a” asimilazioa “zapata” hitzean 61
vivre 51
[ü] soinua “guti” hitzean 48
Hirugarren graduko erakusle plurala 47
“(s, z, x) > (ts, tz, tx) / (n, l, r) __” araua 46
Zarete [izan, + orain, - ahal, zuek] 36
Hirugarren graduko posesibo bihurkaria 33
“zein” partikularen aldaerak 24
utzi + aditz-izenaren kasu-marka 22
“mut(h)il / mithil” alderak 20
’Bigarren graduko leku aditzondoa 17
venir 17
maintenant 14
Amaierako “–n” hotsaren galtzea “orain” hitzean 13
vite 13
“bardin / berdin” aldaerak 12
Balitz [izan, + alegiazkoa, - ahal, hura] 12
Adlatibo bukatuzkoaren singularreko marka 11
cou 11

Gera bitez hurrengo azterketa baterako

Segitzeko ideia batzuk

Batzuk, niretzat nabarmenenak, zerak dira: alderatu MCA eta MDS, erakutsi zer alde dagoen non eta abar. Baina hori hurrengo post batean erakusteko asmoa dudanez, garrantzitsuagoa begitantzen zait oraindik burutaziotik ahalegin eta ikerketara igaro gabeko beste pare bat aipatzea.

  • Datuen azterketa interaktiboa egin FactoMineRreko egileek proposatzen duen Factoshiny [*] erreminta interaktiboarekin
  • Datu matrizeko hutsuneen tratamendurako, RCran-eko missMDA paketeak [*] proposatzen duen inputazio sistema aztertzea.

Gera bitez hemen ideiok neuk edo bestek ahal denean kolpe eta aztertzeko.

Erreferentziak

Oraingoan ez dut aitamenik aurrekotik aparte


  1. Etiketak ondo kabitu daitezen, ez dira erabili izenak osorik, azken 15 karaktereak baino