Millinghoffer András, Hullám Gábor, Antal Péter
Statisztikai adat- és szövegelemzés Bayes-hálókkal: a valószínûségektôl a függetlenségi és oksági viszonyokig
Egy sokváltozós, akár több száz bizonytalan eseményt is tartalmazó tárgyterület szakértôi háttértudáson, szakcikkeken és statisztikai adatokon alapuló valószínûségi modellezése több szintre és fázisra tagolódó feladat. Egyrészt tartalmazza a tárgyterület numerikus eloszlásának, a függetlenségi és az okozati relációknak, mint egymásra épülô szinteknek a modellezését. Másrészt felöleli a priori ismeretek szakértôtôl, tudásbázisokból, a szemantikus webrôl és szabadszöveges forrásokból történô kinyerését és formalizálását, majd statisztikai adatokkal való kombinálását és egy döntéselméleti keretben való használatát, azaz a tudásmérnökség, a gépi tanulás és következtetés területét is. A cikkünkben a Bayes-háló modellosztályt (reprezentációt) mutatjuk be, amellyel ezek a feladatok sikerrel oldhatók meg. Ismertetjük a Bayes-statisztika keretrendszerét, amely a Bayes-hálók alkalmazásának nem szükségszerû, de gyakori környezete. A módszer gyakorlati alkalmazását az általunk kifejlesztett rendszer egy orvosbiológiai feladatra, a petefészekrák tárgyterületre történô alkalmazásán keresztül illusztráljuk, illetve áttekintjük a jelenleg létezô ipari alkalmazásokat. Végül kitérünk az ismertetett modell gyengeségeire és vázoljuk az ezeket kiküszöbölni kívánó kutatási irányokat.