Hogy az adatokból üzlet szülessen

Az adatok felhasználhatóságának időbeli korlátai

2016. október 25. 12:26 - Dr. Pach Ferenc Péter

Bizonyára sokan tapasztalhattuk már azt, amikor pár év távlatából visszatekintünk egy korábbi munkahelyünkre és az akkori csapatra, hogy az idő múlásával a régi csapatból már csak kevesen dolgoznak ott, esetleg ők is már teljesen más területen, munkakörben és a korábbi oly fontos és sürgős feladatokat, projekteket és persze az elért eredményeket a jelenleg ott dolgozók esetleg már hírből (vagy még anekdotákból) sem ismerik.

Sok esetben kizárólag csak az adatok maradnak hátra, jobb esetben persze még a korábbi elemzések, modellek is, akár még megfelelő minőségű és mennyiségű dokumentációval is.

Pedig a korábbi adatelemzések és modellezések által megszerzett tudás (és ez itt természetesen nem üzleti/technológiai know-how, vagy egy-egy konkrét algoritmus szintjén értendő), tapasztalatok formájában hosszabb távon is felhasználható volna.

 

levelek.jpg

 

Az idősorok vonatkozásában azonban kellő óvatosság szükséges, mert hiába áll rendelkezésre több évre visszamenőleg egy idősor, a korábban érvényesnek és hasznosnak tekintett adatok felhasználása a jelenre (pl. az aktuális helyzet leírására) és a jövőre (pl. predikciós modellek elkészítéséhez) vonatkozóan is behatárolt.

 

Nagyon fontos megérteni és különbséget tenni a rendelkezésre álló adatok esetében, hogy mit, mire mikor és meddig használhatunk fel egy adott elemzési cél érdekében. Iparáganként (és bizony projektenként is) más és más az az időhorizont, amelyen belül még érvényesnek és használhatónak tekinthetjük az ún. historikus adatokat.

 

Adott vállalat belső működési viszonyainak (pl. a termékek, vagy szolgáltatások bevezetési/kivezetési ideje, promóciók típusa, időpontja, vagy egy adott gyártósoron a módosítások jellege és időpontjai, vagy egy alapanyag - de akár a beszállító - megváltozásai is, stb.) és a piaci viszonyok (pl. a piac méretének a változása, a piaci szereplők számának alakulása, vagy a jogszabályi környezeti megváltozása, stb.) ismerete nélkül egyrészt pazarlóan járnánk el, másrészt felelőtlenül is, hiszen hibás következtetésekhez vezethet, ha rosszul választjuk meg az elemzés vagy modellezés időhorizontját.

 

Attól, hogy ma már a rendelkezésre álló technológia és az alkalmazható eszközök lehetővé tennék akár az összes vonatkozó és elérhető adat felhasználását, egyszerre történő elemzését, mégsem az az ajánlott megközelítés, hogy in medias res látunk neki egy elemzésnek, modellezésnek.

 

Még mielőtt bármit is kezdenénk az elérhető adathalmazzal, elsőként azonosítanunk kell azokat a belső és külső viszonyokat, hatásokat, változásokat, amelyek megszabják azt, hogy milyen időhorizontokban is gondolkodhatunk egy-egy elemzés, modellezés esetében. Éppen ezért nagyon fontos tudnunk, hogy a szakterület kellő ismerete (illetve megismerése és bevonása) nélkül pl. egy előrejelző modell is csak elméletileg és maximum "laborkörnyezetben" működhet jól, valós (üzleti/kereskedelmi/ipari) környezetben semmiképpen.

 

Fentiek mellett figyelembe kell vennünk még azt is, hogy a múltra vonatkozóan mindenképpen csak egy véges adathalmazt tudunk elérni és felhasználni (hiszen amit gyűjtöttünk, rögzítettünk, letároltunk vagy esetleg külső adatforrásból integráltunk, az a valóság csak egy kis szelete, legyen az adathalmaz bármilyen kiterjedt, komplex és nagy méretű), de viszont a jövő a végtelen számosságú lehetőségek halmaza (hiszen bármilyen eshetőség megtörténhet, adott valószínűség mellett). Éppen ezért a historikus adatokra épülő megoldások lehetőségei is behatároltak (lásd pl. a tőzsdei előrejelzések esetében).

 

Például az osztályozási feladatok esetében sem mindig a legtöbb elérhető adatra támaszkodó és/vagy a legpontosabb osztályozó algoritmus a legjobban alkalmazható egy modellben, hiszen ha fontos, hogy valós időben adjon a modell egy relatíve pontos kimenetet (pl. mozgásnem detektálása okos telefonnal, vagy objektumok típusának a felismerése önvezető autók esetében), akkor a gyorsabb, de relatíve (csak kis mértékben) pontatlanabb modell sokkal értékesebb a konkrét osztályozási probléma megoldásában.

 

Ezért nincsen olyan (még ha sokan esetleg ezt is állítják és hirdetik), hogy legjobb elemzés, vagy legjobb modell, hanem csak az adott konkrét (üzleti/kereskedelmi/technológiai) problémára és konkrét célra helyesen létrehozott és igazoltan jól működő modell, amelyet aztán persze időszakosan felül kell vizsgálni (mert lehetséges, hogy javítani, vagy módosítani kell, vagy esetleg ki kell terjeszteni).

 

Mert minden változik...

 

1 komment

A bejegyzés trackback címe:

https://tritoo.blog.hu/api/trackback/id/tr4111837089

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

süti beállítások módosítása