= Napovedno razvrščanje na podatkovnih tokovih = [[ARRSProjekti/2020/SeznamARRSProjekti2020|Nazaj na seznam za leto 2020]] ---- === Oznaka in naziv projekta === J2-2505 Napovedno razvrščanje na podatkovnih tokovih<
> J2-2505 Predictive clustering on data streams === Logotipi ARRS in drugih sofinancerjev === {{https://www.ijs.si/ijsw/ARRSProjekti/SeznamARRSProjekti?action=AttachFile&do=get&target=ARRS_logotip.jpg|© Javna agencija za raziskovalno dejavnost Republike Slovenije|height="150",width="349"}} === Projektna skupina === '''Vodja projekta: ''' * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=7251|prof. dr. Sašo Džeroski]] '''Sodelujoče raziskovalne organizacije: ''' * [[https://www.ijs.si/ijsw|Institut "Jožef Stefan"]], [[http://kt.ijs.si/|Odsek za tehnologije znanja]] * [[https://www.mps.si/sl/|Mednarodna podiplomska šola Jožefa Stefana]] '''Sestava projektne skupine: ''' [[https://www.sicris.si/public/jqm/prj.aspx?lang=slv&opdescr=search&opt=2&subopt=402&code1=cmn&code2=auto&psize=10&hits=1&page=1&count=&id=18268&slng=&search_term=J2-2505&order_by=|Povezava na SICRIS]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=9362|prof. dr. Ljupčo Todorovski]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=20501|prof. dr. Zoran Levnajić]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=20458|doc. dr. Panče Panov]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=41695|dr. Aljaž Osojnik]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=33747|dr. Dragi Kocev]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=41538|dr. Martin Breskvar]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=44094|dr. Matej Petković]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=39066|dr. Nikola Simidjievski]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=45176|dr. Tomaž Stepišnik]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=49984|Ana Kostovska]] * [[http://www.sicris.si/search/rsr.aspx?lang=slv&id=50265|Jure Brence]] === Vsebinski opis projekta === Slovensko: Podatkovni tokovi so visoko frekvenčni podatkovni viri, ki so v zadnjem času postali navzoči vsepovsod. Značilna zanje je visoka frekvenca prihoda novih podatkovnih primerov in njihova časovna urejenost. Ena ključnih lastnosti je možnost pojavitve sprememb (ang. concept drift), ki jih metode za rudarjenje podatkovnih tokov morajo zaznati ter se nanje prilagoditi. S povečano potrebo po rudarjenju podatkovnih tokov se je povečala še njihova kompleksnost, ki jo lahko opišemo v več dimenzijah. Ena izmed teh je kompleksnost vrednosti, ki jo napovedujemo. Vse pogosteje naletimo na naloge hkratnega napovedovanja več vrednosti, ki so zahtevnejše kot običajna klasifikacija ali regresija. Druga je obravnavanje podatkovnih primerov z manjkajočimi vrednostmi ciljnih spremenljivk. Takšne naloge rešujemo s pol-nadzorovanimi ali razvrščevalnimi metodami. Zadnja dimenzija je naravni del rudarjenja podatkovnih tokov, zadeva pa spremembe v podatkih, ki jih moramo čimprej zaznati in se nanje prilagoditi. V odogovor na potrebe po rudarjenju kompleksnih podatkovnih tokov, bomo v predlaganem projektu razvili metode za sprotno učenje iz podatkovnih tokov, ki 1) Rešujejo naloge tako običajne kot tudi hierarhične več-ciljne regresije in več-označne klasifikacije, 2) Učinkovito rešujejo naloge nenadzorovanega učenja (razvrščanja v podskupine), prav tako pa tudi polnadzorovanega učenja v kontekstu napovedovanja ene ali več vrednosti (ali celotne hierarhije), 3) Ocenjujejo pomembnosti značilk za zgoraj omenjene naloge napovednega modeliranja, 4) Zaznavajo in se primerno prilagajajo spremembam med učenjem napovednih modelov za zgoraj omenjene naloge napovednega modeliranja. Projekt bo razvite metode sistematično ovrednotil z uporabo primerne metodologije. Razvite metode bodo prosto dostopne kot del večje platforme za rudarjenje podatkovnih tokov. Njihovo uporabo bomo spodbujali tudi z anotacijami metod s termini iz ontologije podatkovnega rudarjenja. Uporabnost razvitih metod bomo nazorno prikazali na študijah primerov iz realnega življenja, natančneje s področij spremljanja okolja in zdravlja ter spremljanja in optimizacije delovanja vesoljskih sond. Angleško: Data streams are high frequency information sources that have recently become ubiquitous. Properties specific to them include the high frequency of arrival of new examples and the time-order thereof. Crucial among these properties is the possibility that the data (and the underlying mechanisms generating it) can change - this is called concept drift. Data stream mining methods must thus be able to detect it and adapt accordingly. The need for mining data streams has increased and so has their complexity, which can be categorized along several dimensions. One is the complexity of the target to predict, where we are increasingly often encountering multi-target prediction tasks. Another is the need to handle examples with missing values of the targets in the context of semi-supervised learning or clustering. Finally, specific to data streams is the occurrence of the phenomenon of concept drift and the need to detect it and adapt to it. Responding to the need to handle complex data streams, this project will develop online learning methods that can 1) Handle tasks of both flat and hierarchical multi-target regression and multi-label classification; 2) Efficiently perform unsupervised learning (clustering), as well as semi-supervised learning for (hierarchical) multi-target prediction tasks; 3) Estimate importance of features for supervised and semi-supervised tasks of multitarget prediction; and 4) Detect and handle changes during the learning of predictive models for different types of structured outputs, also in the context of semi-supervised learning. It will systematically evaluate the developed methods using appropriate evaluation methodology. The developed methods will be made publicly available through a major data stream mining platform. Their use will also be promoted and facilitated by appropriately annotating the methods (with terms from an ontology of data stream mining), making them easier to find/use. Finally, the utility of the developed methods will be demonstrated on real-world case studies from the challenging areas of environmental and health monitoring, as well as space operations monitoring and optimization. Osnovni podatki sofinanciranja so dostopni na spletni strani. [[https://www.sicris.si/public/jqm/search_basic.aspx?lang=slv&opdescr=search&opt=2&subopt=1&code1=cmn&code2=auto&search_term=J2-2505|Povezava na SICRIS]]. === Delovni sklopi projekta === * DS1. Napovedovanje več-ciljnih hierarhičnih vrednosti na podatkovnih tokovih. * DS2. Pol-nadzorovano in nenadzorovano učenje na podatkovnih tokovih. * DS3. Ocenjevanje pomembnosti značilk in njihova izbira na podatkovnih tokovih. * DS4. Zaznavanje in prilagajanje spremembam pri napovedovanju več vrednosti na podatkovnih tokovih. * DS5. Ovrednotenje in spodbujanje uporabe razvitih metod. * DS6. Študije praktičnih primerov napovedovanja več vrednosti na podatkovnih tokovih. === Bibliografske reference === * [[http://www.sicris.si/public/jqm/cris.aspx?lang=slv&opdescr=home&opt=1|Reference - SICRIS]] * [[https://www.ijs.si/ijsw/ARRSProjekti/2020/ime%20projekta_123#nowhere|Referenca 1]] * [[https://www.ijs.si/ijsw/ARRSProjekti/2020/ime%20projekta_123#nowhere|Referenca 2]] * [[https://www.ijs.si/ijsw/ARRSProjekti/2020/ime%20projekta_123#nowhere|Referenca - Revija]] ---- [[https://www.ijs.si/ijsw/ARRSProjekti/SeznamARRSProjekti|Nazaj na seznam projektov po letih]]