Neofráziák detektálása egy hangsoreloszlások mintázatát vizsgáló rekurzív módszer segítségével Orbán Viktor beszédeiben

Egy számítógépes programot mutatunk be, ami képes kiszűrni a hangsoreloszlások mintázata alapján OV beszédeiből a teljes szövegnek – töredékek formájában – azt a nagyjából 5 %-át, amelyben a beszédben felbukkanó neofráziák találhatóak. A program által használt algoritmus egyben felhívja a figyelmet arra, hogy a neofráziákat használó személy beszédében a neofráziák környékén megváltozik a hangsoreloszlás, s ez a változás már egy egyszerű hangzóstatisztikát figyelő algoritmussal kimutaható.

A program algoritmusát egy játékos hasonlat segítségével szemléltetjük, s lépésről-lépésre írjuk le a kidolgozásához vezető utat. Ha csak a program működésének tömör leírására kíváncsi, kattintson ide. A program felhasználói felülete még nem készült el, mihelyst megírtam, a programot és a kódját elérhetővé teszem.

Egy épület – és lakói

Képzeljünk el egy hosszú folyosót! A folyosón ajtók sorakoznak egymás után, összesen 4005 – pont ugyanannyi, mint ahány szó van Orbán Viktor egy 2007-ben elhangzott beszédében. Az ajtókon névtáblák. A folyosó hosszú, az ajtók jórészt feketék, csak néhol töri meg az egyhangúságukat itt-ott egy-egy piros ajtó. S mi a piros ajtók mögött lakók neveit szeretnénk megtudni, de nincs kedvünk végig menni az egész folyosón. Ez a feladat bizony kilátástalannak tűnik első pillantásra. Ámde szerencsénk volt!

Amikor ugyanis beléptünk ebbe az épületbe, egy barátságos portás bácsival találkoztunk, aki nyomban ellátott minket pár hasznos információval ennek a különös épületnek a különös lakóival kapcsolatban. Megtudtuk, hogy ha egy piros ajtón is nyitunk be, akkor az ajtó belső oldalán találunk egy piros tintával írt listát, amin azoknak a nevei szerepelnek, akik szintén piros ajtó mögött laknak, s az a lakó – akihez benyitottunk – barátnak jelölte őket. S ez a lista különös varázserővel bír. Ha a listán rábökünk bármelyik névre, akkor azonnal annak a – barátnak jelölt – lakónak a szobájában találjuk magunkat, közvetlenül az ajtaja mögött, amelyen ugyancsak egy ilyen lista lóg belül. S megtudtuk azt is, hogy egy piros ajtó belsején mindig van egy ilyen lista, s az sose lesz üres.

S ekkor már azt is tudjuk, hogy könnyű dolgunk lesz. Először is valahogy találnunk kell egy piros ajtót. S ha rábukkantunk, csak benyitunk, s lemásoljuk a noteszünkbe a listájáról a neveket, s máris rábökünk az egyikre. De abban a pillanatban már abban a másik lakásban vagyunk, s előttünk egy másik piros lista – ami sosem üres. Ekkor, ha találunk rajta újabb neveket, azokat is felírjuk, s rábökünk megint az egyikre. S addig-addig bökdössünk ezekre a listákra, amíg egyszer csak azt nem vesszük észre, hogy már jó ideje nem került új név a noteszünkbe. Mert vélhetően addigra már felírtuk az összeset,

A módszer

A módszert tehát Orbán Viktor ‘Fel a mélyből, aki magyar!‘ c., 2007-ben elhangzott beszédének a szövegén mutatjuk be. A keresés rekurzióval történik, amelynek a lépéseit alább ismertetjük. A rekurzív keresésnek azt a részét, amit képtelenség lenne ‘kézzel’ elvégezni, azt a program hajtja végre. A program minden egyes keresés után a szövegből összeollózott rövid részletekkel tér vissza, s itt már emberi beavatkozásra van szükség: nekünk kell végigolvasni ezeket a szövegrészleteket, hogy találunk-e bennük neofráziát.

A módszer leírásában a hangsorismétlés kifejezést a következő értelemben használom: hangsorismétlés minden olyan legalább három hangból álló hangsor, amely legfeljebb három egymást követő szóban ismétlődik. Pl.: ‘gyakorló orvos korában‘ – itt a ‘kor‘ hangsor ismétlődik. Természetesen azt is hangsorismétlésnek tekintjük, ha az szóismétlésből fakad. (A program a névelőket is szavaknak tekinti.)

  • Keresünk egy neofráziát.
  • Megkeressük a neofráziához legközelebb eső hangsorismétlést a szövegben. (A program előzőleg már kigyűjtötte a szövegben található összes hangsorismétlést, s színes háttérrel kiemelte azokat a szövegben, így nem lesz nehéz dolgunk.) A továbbiakban ezt a hangsorismétlést tartalmazó 2-3 szót a neofrázia szignáljának nevezzük.
  • A hangsorismétlést tartalmazó három szóból álló részletet, azaz a szignált átadjuk a programnak, s a program kigyűjti az összes olyan – három hangból álló – hangsort, amelyek ebben a rövid részletben találhatóak.
  • A program ezt követően átfésüli a teljes szöveget, s kiszűri az összes olyan szövegrészletet, ahol az előző lépésben előállított hangsorok közül legalább kettő szerepel egymástól legfeljebb pl. hét szó távolságra. (Ez lesz a program egyik paramétere.)
  • A program ezeket a szövegrészleteket úgy ollózza ki a szövegből, hogy kiegészíti azokat egy hosszabb részletre. Eléje is, utána is pl. 20-20 szót tesz, azaz a kiegészítés hossza lesz a program másik paramétere.)
  • Ezekben a részletekben keresnünk kell egy újabb neofráziát.
  • Ha megtaláltuk az új neofráziát, akkor a fenti lépések kezdődnek elölről, csak most ezzel a neofráziával.
  • A rekurzió akkor fejeződik be, amikor már nem találunk újabb neofráziát.

De mi is az, hogy neofrázia?

OV beszédeiben felbukkanó neofráziákra először Rudas János szociálpszichológus hívta fel a figyelmet egy publicisztikájában. Az ő meghatározását idézve a neofrázia (neologizmus, újbeszél) ‘eredetileg csak az azt alkotó számára létező sajátos nyelvi produktumok, amelyekhez sokszor a „bizarr” jelző is társítható‘. S a szociálpszichológusnak OV 2015 március 15-i beszédét hallgatva tűnt fel, hogy a beszéd szövegében van ‘valami, ami addig nem volt jellemző a korábbi nyilvános fellépéseire. Éspedig újszerűnek tekinthető fogalmak, szókapcsolatok sűrűsödései‘. S abban a beszédben valóban igen erőteljes neofráziák jelentek meg: katartikus lenyomat, szakrális lépcső, létparancsolat, s még számos másik.

A keresett neofráziák

OV 2007-es beszédében, amit először megvizsgálunk a programmal, a következő kifejezésekről éreztem úgy, hogy ‘neofráziaszerűek’:

  • lelki jóakarónk‘ – ez egy igazi neofrázia. A Google kereső csak OV-nek ezt a beszédét adja találatnak erre a kifejezésre.
  • legfőbb káosz-mester‘ – vélhetően az 1995-óta létező ‘hatalom kártyái‘ nevű fantasy kártyajáték egy lapjának az elnevezése.
  • régi többség‘, ‘új többség‘ – ez a szópár OV saját szóalkotása, nem honosodott meg a politika nyelvében, a szövegben 21, ill. 26 alkalommal fordul elő.
  • közjószág‘ – kétségtelenül bizarr szó, de valójában egy közgazdaságtani szakszó, ami az angol ‘public good‘ kifejezés megfelelője, s OV említi is, hogy Andorka Rudolftól vette át ezt a kifejezést.
  • községi szegény‘ – régies kifejezés, ma inkább a ‘létminimum alatt élő‘ vagy az ‘alsó decilis‘ szavakat használjuk helyette.
  • munkaalapú‘ – politikai szakkifejezés, a blogger szerint OV politikája nyomán terjedt el a használata a kormányzat kommunikációjában (de ez csak a blogger saját véleménye).
  • pártalapú‘ – mint előbb

Nyilván az utolsó két kifejezés a rendszerváltozás előtt ismeretlen volt a nyelvünkben, viszont ma már elterjedt, nekem mindenesetre szokatlannak tűnt – de a rekurziónak is megvolt erről a saját véleménye.

A keresés

A módszer működését először egy durva szűrő alkalmazásával mutatjuk be, s ekkor a szöveg egy igen nagy százalékát kapjuk vissza. Ezt követően egy finomabb szűrőt helyezünk majd a durva szűrő alá, s így a program a szöveg kisebb hányadát fogja visszaadni, hogy abban kézzel bogarászhassunk a neofráziák után.

Most pedig kezdődjék a rekurzió! Startnak a ‘közjószág‘ kifejezést választottam, ami OV szóalkotásai és szóátvételei közül kétségtelenül a legsikeresebb, s messziről előzi még az ‘asszonyság‘ és a ‘bírságbajnok‘ kifejezéseket is. (Mindenhol közöljük, hogy a szöveg hány százalékát kaptuk vissza, ill. az újabb rekurzióknál azt is, hogy addigra összesen a szöveg hány százalékánál tartunk – ezeknek a kiszámításánál mindig figyelembe vettük a részletekben lévő átfedéseket, így nem pusztán összeadásról van szó.) Nézzük tehát az első neofráziát és az azt kísérő hangsorismétlést. (Paraméterek: 2, 7).

„Azonban nekünk érdemes egy gondolatot világosan magunkévá tenni, megvallani és kimondani. Andorka Rudolf, a néhai Andorka Rudolf gondolata (ndo) volt ez a mondat, első hallásra furcsának tűnik majd, kérem barátkozzanak vele. Õ így fogalmazott: a gyermek közjószág. Ezt tanultuk tőle, még amikor egyetemisták voltunk.”

Az ‘Andorka Rudolf gondolata‘ szignált adtuk át a programnak. A program a szöveg 29 %-át adta vissza pár soros részletek formájában. Ezek között az egyikben szerepelt a ‘legfőbb káosz-mester‘ kifejezés. Azt a részletet az ‘ond‘, az ‘ndo‘ és az ‘udo‘ hangsorok ismétlődése köti össze az átadott szóhármasban szereplő hangzóhármasokkal (vö.: Andorka Rudolf). A találatok között szerepeltek még a ‘régi többség‘, ‘új többség‘, a ‘munkaalapú‘ kifejezések, s a ‘közjószág‘ egy további előfordulása (összesen kétszer szerepel a beszégben ez a szó).

„nem feltétlenül igaz -, de amikor ma reggel ide készültem önökhöz és átfutottam a lapokat, akkor felfigyeltem egy rövidhírre. Még egyszer mondom, nem tudom igaz-e. De az újság írta. Arról szól, hogy a mostani egészségügy-miniszter, aki egyébként a legfőbb káosz-mester”

Most megkeressük a ‘legfőbb káosz-mester‘ neofrázia szignálját.

„De az újság írta. Arról szól, hogy a mostani egészségügy-miniszter, aki egyébként a legfőbb káosz-mester is ma Magyarországon, még gyakorló orvos korában (kor) egy bizonyos dokumentum szerint, amikor műtétre került sor, nem a beteg, hanem a másik fület műtötte meg.”

Ezután ezt a szignált adtuk át inputnak: ‘gyakorló orvos korában‘. A szöveg 30 %-át kaptuk vissza (így az előző részletekkel a szöveg 50 %-ánál tartunk). A részletek között megtaláltuk a ‘községi szegények‘ kifejezést. Itt ismétlődő hangsorok: ako – kor – ába – ban (vö: gyakorkorában). S a visszaadott helyeken megtaláltuk még a ‘régi többség‘, ‘új többség‘ kifejezéseket, a ‘közjószág‘ mindkét előfordulását.

„Hiába (ába) mondjuk az európai uniós csatlakozás (ako) reklámkampányában (ába, ban), bölcs kormányzati (kor) kommunikátorok, PR-szakemberek segítségével, hogy nyithatunk cukrászdát Bécsben, ez valószínűleg a statisztikában (ába, ban) a községi szegények sorában (orá, ába, ban) felsorolt sok százezer ember számára nem egy valóságos lehetőség. Nekik másra van szükségük. Nekik arra van szükségük”

Ekkor a ‘sorában felsorolt‘ sort adtuk át a programnak, s a szöveg 33 %-át kaptuk vissza, s összesen a szöveg 63 %-ánál tartunk. A ‘lelki jóakarónk‘ az ‘olt‘ és ‘fel‘ hangsorok mellett jelent meg (vö: ‘sorában felsorolt‘), s megint felbukkant a ‘régi többség‘, a ‘káosz-mester‘ kifejezés és a ‘közjószág‘ szó második előfordulása is.

„a konferencia megszervezését és a meghívásomat, külön is köszöntöm őt, külön köszöntöm Dalma asszonyt, aki nemcsak, mint a köztársasági, volt (olt) köztársasági elnök felesége (fel) van mindig velünk, hanem mint támogatónk és lelki jóakarónk is. Engedjék meg, hogy köszöntsem a kerület polgármesterét”

Azaz eddig egy kivételével (‘pártalapú‘) az összes neofráziát megtaláltuk a szöveg 63 %-ában. A bejárt utat, s a bejárás során kapott találatokat a képen láthatjuk. Az út ez volt: közjószág – legfőbb káosz-mester – községi szegény. S a nyilak azt mutatják, hogy az egyes kifejezésektől mely kifejezésekhez juthatunk el ezen a ‘rövid’ úton. (Egy technikai megjegyzés: mivel a ‘régi többség’ 21-szer, az ‘új többség’ 26-szor, s ‘közjószág’ pedig kétszer fordul elő a szövegben, azok minden megtalálásánál a szövegben való első előfordulásánál található szignált használtuk a tovább lépéshez. – De ez most annyira nem fontos, hiszen most csak a módszert mutattuk be, másrészt az első lépésben az ‘új többség’ általunk használt szignálját találtuk meg, így azt nyugodtan használhattuk .)

paraméter: 2, 7

Most pedig nézzük meg, hogy a neofráziák hogyan kapcsolódnak egymáshoz ebben a keresésben, ha a teljes gráfot bebolyongjuk – ami így a szöveg 97 %-a lesz. (Ne felejtsük: most még a durva szűrőt használjuk a módszer bemutatásához!)

S láthatjuk, hogy az algoritmusnak is megvan a saját különvéleménye arról, hogy szerinte mi neofrázia, s mi nem. A ‘pártalapú‘ kifejezés ui. az, ami a legkevesebb barátkérést küldött a piros ajtó mögött lakók személyeknek. Csak két neofráziát jelölt barátnak, míg mindenki más legalább három neofráziának küldött barátkérést. Azaz mintegy ‘kilóg a sorból’, ami igazából nem is meglepő.

paraméterek: 2, 7

Inkább csak annak tűnik újszerűnek a kifejezés, akinek a nyelvhasználata még a régi rendszerben alakult ki – mint a latinóra bloggeréé is.

A fenti bejárás során a szöveg 97%-át lefedtük, hiszen ez még csak a durva szűrő volt, amin bemutattuk a módszert, s a finomabb szűrés csak most következik. A bejárás csak a szöveg 3%-át nem érintette. S ha emeljük a paraméterek értékét, akkor ez a szövegrész még tovább csökkent. A latinóra bloggere kíváncsi volt, vajon mi marad meg a szövegből, ha ez a rész 1% alá csökken. Íme az eredmény:

Jó napot kívánok Tisztelt Hölgyeim …………attól hogy nekünk ez …………akarjuk lecsapolni nem a békáknak kell kiírni népszavazást Tisztelt Hölgyeim és ……

A töredékben egy idézet szerepel, amit eredetileg Kóka Jánosmondott valamikor 2005 körül: ‘Ha a mocsarat akarjuk lecsapolni, nem a békáknak kell kiírni népszavazást‘ (magyarnemzet.hu). S ebben az az érdekes, hogy a beszédben egy másik személytől vett elhíresült idézet, s két udvariassági formula (köszönés és megszólítás) az, ami nem szervesül hozzá a neofráziák kapcsolati hálójához.

Finomhangolás

A következő finomabb szűrő, amit elhelyezünk az algoritmusban a következő: tekintjük azokat a két hangból álló hangsorokat (bigramákat), amelyek a szignálban, ill. a kiszűrt szövegrészletekben szerepelnek. Előállítjuk ezeknek egy olyan súlyozását, ami azt jutalmazza (állítható erősséggel), ha egy szignál bigram ismétlődik a szövegben, ill. ha egy olyan bigram ismétlődik a szövegben, ami a szignálban nincs jelen (B szűrő). Továbbá ugyanígy kialakíthatunk egy súlyozást a trigramok ismétlődésére is (T szűrő). Ezek után beállíthatjuk a finom szűrést úgy, hogy az összes szövegrészlet közül, amelyek fennakadtak a durva szűrőn, csak azokat kapjuk vissza, amelyekben ez a súlyozott érték egy általunk megadott százalék fölé esik.

A súlyozáshoz több, egymástól független együtthatót is be lehet állítani, s meg lehet vizsgálni, hogy melyik beállításnál lesz optimális a keresés. A programban egy egyszerű súlyozást használtam, de már az is látható eredményekhez vezetett. Ezt a programot ezzel a súlyozási rendszerrel egy neurális háló segítségével lehetne igazán jól fejleszteni – de ahhoz sajnos nem értek.

Az algoritmus bemutatásánál egy rövid kereséssel szemléltettük a módszert. Akkor a szöveg 66 %-ából kaptuk vissza az összes neofráziát. De az a példa csak szemléltetésre jó, hiszen az út hossza függ attól is, hogy szerencsés kézzel választottuk-e ki az első neofráziát, amiből kiindultunk, s utána is szerencse kellett a tovább lépésekhez is, hogy rövid legyen a keresés. Hiszen az ott bemutatott gráf teljes bebolyongása a szöveg 97 %-át fedi le! (Tehát ne feledjük el, hogy egy gráf teljes bejárása, s a gráfon a legrövidebb út megtalálása nem ugyanaz!)

A következő táblázatban azt mutatjuk be, hogy a durva szűrő két paramétereinek a beállításával kapott gráf – amelynek a teljes bejárása során megkapjuk az összes neofráziát, bárhonnan is induljunk – a szöveg hány százalékát fedi le, s mellette azt, hogy ugyanezen gráf teljes bejárása a szöveg hány százalékát fedi le, ha felrakjuk a finom szűrőt is, s jelöljük, hogy annak a paraméterét milyen értékre állítottuk be. (Ennél a szövegnél csak a B szűrő hozott eredményt, a T szűrő hatástalan volt.)

Valamint töröltük a megtalálandó kifejezések közül a ‘pártalapú‘ szót, s így már bármely neofráziából kiindulva csak öt kifejezést kell megtalálnunk.

durva szűrő paramétereifinom szűrő paraméterei (B, T)visszaadott szöveg csak durva szűrővelvisszaadott szöveg finom szűrővel
20, 2065, 099,7 %60 %
25, 2565, 099,5 %57,4 %
30, 3065, 099,8 %52 %
40, 4070, 099 %58 %
50, 5060, 099 %54 %

Azt láthatjuk, hogy a finom szűrő alkalmazásával a visszaadott szöveg 99 %-a lecsökkent 60 % alá. Ez azt jelenti, hogy bármely neofráziától is indul el a rekurzió, nem kell a teljes szöveg 60 %-ánál nagyobb részt bejárnunk ahhoz, hogy megtaláljuk az összes neofráziát a szövegben.

A szignálok és a neofráziák kapcsolata

A fenti algoritmus kidolgozásához az a megfigyelés adta az ötletet, hogy OV 2007-es beszédében a neofráziák közvetlen közelében mindig három hangból álló hangsorismétlődés található. S ha megnézzük, hogy van-e kapcsolat a hangsorismétlések és a neofráziák között, akkor egy különös dinamikára bukkannunk, ami egyre erősebb lesz a neofráziák elburjánzásával. Először csupán egy-egy szignál ismételt hangsora csúszik át egy-egy neofráziába úgy, hogy viszi magával a jelentését is, végül pedig felbukkannak olyan neofráziák is, amelyek egyben önmaguk szignáljai! Ezt a dimamikát a fenti 2007-es beszéden, s a 2015 március 15-én tartott ünnepi beszéden mutatjuk be.

A 2007-es beszédben a beszélő Dalma asszonyról először azt mondja, hogy a ‘köztársasági, volt köztársasági elnök felesége‘, ami egy szignál, s ezt a szignált követő neofráziával a beszéd Dalma asszonyt a ‘lelki jóakarónk‘-nak nevezi. Majd azt vehetjük észre, hogy ebből a két fordulatból két morféma csúszik össze a későbbi ‘közjószág‘ neofráziában. – Hiszen Dalma asszony egyrészt a ‘köztársasági, volt köztársasági elnök felesége‘, másrészt pedig ő a ‘lelki jóakarónk‘, azaz ő számunkra mintegy a megtestesült ‘köz-jóság‘, s ettől már csak egy hangzóváltásnyira van Andorka Rudolf régies szakkifejezése, a ‘közjószág‘. Azaz egy szignál megismételt hangsora épül be más neofráziák hangalakjába. (Lásd még: ‘községi szegény‘.)

A 2015-ös beszédben a ‘létparancsolat‘ neofrázia szignálja a következő mondatban van: ‘Tisztelt Ünneplő Egybegyűltek! Függetlennelenni (enn) a nálunknál nagyobbak között.‘ A következő szójátékot figyelhetjük meg: ünneplő ~ függetlennek ~ lenni. Mintha a ‘nne‘ ~ ‘lenne‘ ~ ‘lenni‘ sorozatban a kezdő hangsor lassan átúszna a létigébe, az pedig majd a neofráziában jelenik meg, ami a ‘létparancsolat‘ (lenni ~ lét).

A 2015-ös beszédben a ‘katartikus lenyomata‘ neofrázia már önmaga szignálja, hiszen kétszer tartalmazza az ‘ata‘ hangsort. S ez a hangsor három neofráziában is megjelenik:

  • katartikus lenyomata‘,
  • ‘a magyar történelem létparancsolata
  • főnix pillanata
  • továbbá még egy költői képben: ‘félhold hatalmas embertömegei, a kiapadhatatlan darázsfészek zsongása

A ‘csillagvillanás‘ szintén önmaga szignálja (‘illa‘), s ez a hangzónégyes három neofráziában is megjelenik:

  • szerteáradt a mágikus energia, amely felvillanyozta … a magyarokat
  • ‘főnix pillanata a magyar lélek újjászületésének’
  • a magyar történelem páros vezércsillaga
  • nagyjaink csillagmezejéről

A 2015 március 15-i beszéd

A beszéd tobzódik a neofráziákban, s azok olyan közel vannak néha egymáshoz, hogy több neofráziának is ugyanaz a szignálja, s így a szignálok alapján már nem csak egy-egy neofráziát, de neofrázia csokrokat találunk. A következő táblázatban megmutatjuk a szignálokat, s külön jelültük, hogy az adott neofrázia hány szó távolságra van a szignáljától.

NEOFRÁZIAszignálTÁVOLSÁG (SZÓ)
mágikus energiaHonfitársak! Polgártársak!23
szakrális lépcsőua35
szakrális momentumua50
főnix pillanatua52
magyar történelem páros vezércsillagagazdasági válságokat (ság)77
nagyjaink csillagmezejeua– 75
a magyar történelem létparancsolataÜnneplő egybegyűltek! Függetlennek (nne)17
katartikus lenyomatakatartikus lenyomata (ata)0
csillagvillanáscsillagvillanás (illa)0
hősvalóságua-4

A továbbiakban nem bombázzuk a nyájas olvasót táblázatokkal, mivel ezzel a szűréssel már meg is találtuk a kulcsot, hogy hogyan tudjuk hatékonyan detektálni OV beszédeiben a neofráziákat.

Ugyanis felfigyeltünk egy újabb anomáliára: az ‘illa‘ és az ‘ata‘ hangsorok szerepére. S amikor a rekurziónak ezt a két hangsort adtuk át a 20,20,0,5 paraméterekkel, akkor a szöveg 17%-át kaptuk vissza, amelyben benne volt az összes neofrázia.

Persze eddig könnyű dolgunk volt, hiszen a rekurzió mellett futott egy találatjelző is, amely jelezte a keresett neofráziák felbukkanását, s így találtuk meg ezt a két hangsort, amelyek kiváló szignálnak bizonyultak.

Egy élesben történő szűréshez viszont arra lenne szükségünk, hogy ezeket a szignálhangsorokat ‘ránézésre’ megtaláljuk valahogy az adott szövegben, hiszen ott már nem tudjuk, hogy pontosan milyen szavakra jelezzen a találatjelző. De mi van akkor, ha ezek a szignálhangsorok minden szövegben azonosak ugyanazon személy esetében? Nos, tegyünk egy próbát!

Keresés fix szignálhangsorokkal

A továbbiakban a programnak az ‘illa‘, ‘kata‘ és néha az ‘andorka‘ hangsorokat adom át (ez utóbbit azért, mert megfigyeltem több helyen, hogy szinte neofráziagenerátorként működik – de ezt itt most nem fejtem ki). S nézzük meg, hogy OV további beszédeiben – időrendben visszafelé haladva – mit tudunk kiszűrni.

S kezdésnek a tavalyi tusványosi beszédén mutatjuk be a legszebb találatokat.

Tusványosi beszéd, 2022 – paraméterek: ‘illa, kata, andorka’, 5, 25, 0, 80 – visszakapott szöveg: 5 % – neofráziák: poszt-nyugat, toleranciaajánlat, szemantikai szemfényvesztés, hungaropannon mártás

‘Azt is mondhatnám hogyha nem lenne egy kicsit zavaros hogy a Nyugat mondjuk úgy hogy szellemi értelemben KözépEurópába költözött A Nyugat itt van ott pedig már csak a POSZTNYUGAT maradt És Európa két fele között egy csata (ata) zajlik Ugyan mi tettünk TOLERANCIAAJÁNLATOTPOSZTNYUGATIAKNAK hogy hagyjuk békén egymást mindenki maga dönthessen arról hogy kivel kíván élni de ezt visszautasították ‘

„baloldalnak van egy csele egy ideológiai cselvetése az az állítás az az állításuk hogy Európában eleve KEVERT FAJÚ népek élnek Ez egy történelmi és SZEMANTIKAI SZEMFÉNYVESZTÉS mert összekever különböző dolgokat (kat) … És amikor szerencsés a csillagállás (ill,lla,ʧil,lag) és jó a széljárás akkor ezek a népek ráadásul egy ilyen HUNGAROPANNON MÁRTÁSBAN (rtá,tás) össze is olvadnak egy saját új európai kultúrát hozva létre Ezért harcoltunk mindig Egymással hajlandóak (and) vagyunk keveredni de nem akarunk KEVERT FAJÚVÁ válni ezért harcoltunk Nándorfehérvárnál (ndo,dor) ezért állítottuk meg a törököt Bécsnél és ha jól gondolom (ndo,dor)”

Tusványosi beszéd, 2023 – paraméterek: ‘illa, ata’, 5, 30, 0, 70 – visszakapott szöveg 9% – kifejezések: demars, nagyhatalmi öltözetben

„segítségemre sietett és küldött nekem egy DEMARSOT amiben megírták nekem hogy miről nem szabad beszélni és miről beszélhetek meg hogyan és mit kell mellőznöm Ez egy hivatalos (lla,ata) állami (lla,ata) irat Ismertetem Azt tanácsolják hogy ne beszéljünk arról ami román érzékenységet sérthet”

„Vagyis Ázsia illetve (ill,ata) Kína teljes NAGYHATALMI ÖLTÖZETBEN (ill,ata) áll előttünk Van civilizációs hitvallása ő a világegyetem központja 

2016 március 15 – paraméterek: ‘illa ata’,5,15,0,50 – visszakapott szöveg: 6 % – neofrázia: világdicsőség, csillagvillanás

„Európa újkori történelme mindkét magyar forradalmat megőrizte a VILÁGDICSŐSÉG emlékei között két CSILLAGVILLANÁST (ill,lla) két nemzeti magyar célokért és magyar érdekből kirobbant népfelkelést”

2017 október 23 – paraméterek: ‘illa ata andorka’, 5, 15, 0 , 80 – visszakapott szöveg: 3 % – kifejezés: kevert földrész

„Ez a birodalom hozta nyakunkra az újabb kori népvándorlást (ill,ndo,dor) is a migránsok millióit (ill,ndo,dor) és az új bevándorlók (ill,ndo,dor) invázióját Ők dolgozták ki azt a tervet amellyel Európát KEVERT FÖLDRÉSSZÉ akarják alakítani”

Végül vessünk egy pillantást a kezdetekre. Itt most a program a szöveg viszonylag nagy százalékát szűri ki, viszont láthatunk pár példát a beszélő korai időszakából, amikor még tesztelte a közönségét, hogy milyen messzire mehet el a provokatív kifejezések használatában. Egy húsz évvel ezelőtti beszédet nézünk most meg:

Tusványos, 2003 – paraméterek: ‘illa andorkata’, 5, 15, 0, 60 – visszakapott szöveg: 20 % – kifejezések: moszkovita reflexek, kultúrnemzet

„Azt is mondhatom vállalva (lla) a kifejezésben rejlő kockázatot hogy államnemzetek (lla) helyett inkább KULTÚRNEMZETET képzeltünk el”

„nemzeti érdekvédő irányvonalra van szükség ugyanis ott mindenki így viselkedik és így gondolkodik (ndo,kat) A hajbókolás a MOSZKOVITA REFLEXEK mindenáron megfelelni akarás az Európai Unióban immáron nem egyszerűen sérteni fogja az önbecsülésünket”

A módszer összefoglalása

A blogger eredetileg arra figyelt fel, hogy OV beszédeiben a neofráziák közelében furcsa hangsorismétlések fordulnak elő. Ez alapján kidolgozott egy rekurzív módszert, amely képes ezeket a – hangsorok eloszlásában megjelenő – anomáliákat kiszűrni, s azt állapította meg, hogy OV szövegeiben vannak bizonyos hangsorok, amelyek ha egymás közelében fordulnak elő, akkor a szöveghelyen neofrázia várható. A program ezeket a ‘szignálhangsorokat’ szűri ki a beszélő különböző beszédeiből egy rekurzív módszerrel egy hosszabb tanulási folyamat során.

Először a programnak meg kell mutatni egy, a beszélőtől származó ‘gyakorlószövegeken’ egy neofráziát, s a program elemzi ennek a neofráziának a környezetében a hangsoreloszlások mintázatát, majd átfésüli a teljes szöveget hasonló mintázatok után kutatva. Ha ezzel végzett, akkor visszaadja a szövegből azokat a töredékeket, ahol megtalálható ez a mintázat, s ezekben a töredékekben jó eséllyel találunk egy újabb neofráziát, amit ismét megmutatunk a programnak, s a program ekkor finomítja a mintázatot, s újra végrehajtja a fentebb leírt keresést. Azaz a programot egy rekurzív módszerrel tanítjuk be. Kellő tanulás után a program már birtokában lesz egy olyan hangsorkészletnek, ami azokat a szignálhangsorokat tartalmazza, amelyek segítségével már önállóan is ki tudja keresni a beszélő – általa még nem látott – további beszédeiből a neofráziákat tartalmazó helyeket úgy, hogy a teljes beszédnek, csak nagyjából 5 %-át adja vissza, s ezeken a helyeken neofráziák sokaságát találhatjuk.

Az önálló keresés során a program egy bizonyos anomália után kutat. Az anomália a következő: ha a szignálhangsorok közül bármely kettő egymás közelében található – egymástól pár szó távolságra – akkor abban a szövegrészletben neofrázia megjelenése várható. Természetesen különböző súlyozásokat használhatunk ezeknek a hangsortorlódások detektálására, s megfelelő beállítással a szöveg nagyon kis terjedelmű töredékeit kapjuk vissza , s találhatunk bennük jelentős számú neofráziát.

Valószínű, hogy szignálhangsoroknak ez a gyűjteménye – nyilván személyfüggő – ugyanúgy használható a beszélő bármely szövegén, azaz a szignálhangsorok gyűjteménye adott személy esetén nem beszédfüggő, azaz némileg állandó beszédről beszédre. A program viszont nem rendelkezik OV teljes szignálhangsor gyűjteményével, mivel a célom csak az volt, hogy egy működő algoritmust írjak a neofráziák szűrésére. Nyilván a program tovább tanítható, s a hangsorkészletből, s az azokra vonatkozó előfordulási szabályokból még számos következtetést lehet levonni.


Végül egy érdekesebb következtetés – ami persze egyenlőre csak hipotézis, ellenőrizetlen feltételezés. Megfigyelhetjük OV beszédeit olvasva, hogy van egy sajátos nyelvhasználata. Valahogy furán követik egymást a szavai, van benne valami szokatlan, ahogyan egymás után fűzi azokat. S lehet, hogy ennek egy nagyon egyszerű oka van. Ha mondani akar valamit – s éppen inaktív a neofráziát előállító egység a neurális hálójában – akkor nem használhat bármilyen hangsort bármilyen hangsor közelében, hiszen azok csak akkor fordulhatnak elő egymás mellett, ha aktiválódik a neofráziát előállító egység. Ellenkező esetben ezek a hangsorpárok nem lehetnek egymás közelében, s ilyenkor nem fűzhet egymás mellé bármely két szót, csak olyat, amiben nincs olyan hangsor, amit az adott szót megelőző néhány szó tiltó listára tett – pár soron következő szó idejére. Azaz a beszéde folyamán mindig csak egy – folyton változó – korlátozott listából választhatja ki a szavait, s ez a korlátozás talán az, ami a szóhasználatát jellegzetesen furává, afféle ‘orbánivá’ teszi.

Azaz a beszéde annak az embernek a járására hasonlít, aki egy láthatatlan szabályt követ: piros járólap után nem léphet se piros, se zöld járólapra, ugyanakkor sárga járólap után viszont lilára és szürkére nem léphet. Ha pedig egy fehér és egy rózsaszín járólap érinti egymást ott ahova lép, akkor csak olyan járólapra léphet, ami nem fekete vagy barna. S ennek az embernek a járása bizony igen kaotikus lesz.