Kardkovács Zsolt, Tikk Domonkos, Bánsághi Zoltán
A 2005-ös KDD kupa feladatának megoldása a Fürkész algoritmussal
A 2005-ös ACM KDD kupa versenyfeladata internetes keresôkifejezések kategorizálása volt. Jelen tanulmányban ismertetjük a problémára adott megoldásunkat, amellyel a pontossági és kreativitási versenyben is második helyezést értünk el. A megközelítésünk túlmutat a konkrét feladat megoldásán: általános eszközt nyújt olyan rosszul specifikált osztályozási feladatokra, ahol nem áll közvetlenül rendelkezésre elegendô tanulóadat. Az algoritmus, amely az Internetet használja a szükséges tanulóadatok forrásaként, három részbôl áll: 1. probléma-specifikus adatszûrô; 2. webrobot konfigurálása az adatok szüretelésére; 3. hatékony osztályozó algoritmus alkalmazása. A módszerünkben kiemelt fontosságú a probléma megoldása során kifejlesztett általános algoritmusunk, amely képes különbözô kategóriarendszereket egymásra leképezni.