Eksplorativna analiza podataka (EDA) predstavlja prvi korak u analizi podataka i ključna je za razumijevanje njihovih osnovnih karakteristika. Prije nego što primijenimo bilo kakve statističke ili strojno-učene modele, važno je temeljito istražiti podatke kako bismo otkrili obrasce, uočili iznimke te dobili uvid u strukturu podataka. Obrasci su sastavni dio našeg života. Slično prirodi, financijska tržišta često pokazuju fraktalne obrasce. Na primjer, cijene dionica često imaju fluktuacije koje su slične bez obzira na vremenski okvir (dnevni, tjedni ili mjesečni). Financijska tržišta su također kaotični sustavi gdje mala promjena (npr., geopolitička vijest ili ekonomski pokazatelj) može imati velike posljedice. Proučavanje obrazaca omogućuje nam da bolje razumijemo te nepredvidive promjene i pripremimo strategije za zaštitu portfelja. Na tržištima se često pojavljuju ciklusi optimizma i pesimizma, koji pokreću tržišne balone i slomove.

Možemo dobiti prikaz gotovo pa svega što si zamislimo. Razvijati modele i strategije kojima bi dodatno optimirali naš portfelj. Danas su mogućnosti gotovo pa nepregledne, ali sve počinje od osnova.

Prepoznavanje ovih obrazaca itekako može pomoći da identificiramo razdoblja precijenjenosti ili podcijenjenosti imovine i da prilagodimo strategiju. Praćenje obrazaca može pomoći u optimizaciji portfelja kroz diverzifikaciju. Na primjer, identificiranjem sektora koji su povijesno nekorelirani, možemo smanjiti rizik diverzifikacijom ulaganja u sektore koji se ponašaju različito u određenim ekonomskim uvjetima.

Zašto je EDA važna?

EDA nam pomaže:

  • Uočiti obrasce u podacima.
  • Otkrivati iznimke (outliere) koje bi mogle utjecati na analize.
  • Provjeriti pretpostavke koje će se koristiti u daljnjem modeliranju.
  • Poboljšati razumijevanje distribucije podataka što olakšava donošenje zaključaka.

Što točno promatramo?

Vizualizacija podataka

Histogram može pomoći u analizi distribucije dnevnih prinosa za određenu dionicu. Ako histogram pokazuje da su prinosi uglavnom koncentrirani oko nule, to može sugerirati da dionica nema značajan trend, a visoka volatilnost oko srednje vrijednosti može upućivati na rizik.

Boxplot (kutijasti dijagram): Koristi se za prikaz medijana, kvartila i mogućih outliera.

Boxplot dnevnih cijena može pokazati da se cijena dionice uglavnom kreće unutar određenog raspona, ali s povremenim velikim skokovima ili padovima koji su outlieri. Ovi outlieri mogu biti rezultat neočekivanih događaja, kao što su objave zarade, regulatorne promjene ili moguće preuzimanje.

Scatter plot (raspršeni dijagram): Koristan za prikaz odnosa između dviju varijabli, posebno kod prepoznavanja korelacija.

Scatter plot može prikazati odnos između volumena trgovanja i cijene dionice. Na primjer, ako se cijena povećava uz visok volumen trgovanja, to može ukazivati na pozitivan sentiment investitora i potencijal za daljnji rast cijene.

Opisna statistika

  • Koristi se za sažetak osnovnih karakteristika podataka.
  • Srednja vrijednost (mean): Prosjek svih vrijednosti.
  • Medijan: Središnja vrijednost, korisna za podatke s outlierima jer nije toliko podložna ekstremima.
  • Standardna devijacija i varijanca: Pokazuju koliko su podaci raspršeni oko srednje vrijednosti.
  • Min i max: Pokazuju raspon podataka, što je korisno za razumijevanje ekstremnih vrijednosti.

Distribucija podataka

  • Razumijevanje distribucije omogućava bolje donošenje odluka pri modeliranju.
  • Normalna distribucija: Jedna od najčešćih distribucija, gdje su podaci simetrični oko srednje vrijednosti. Mnoge statističke metode pretpostavljaju normalnu distribuciju, stoga je važno provjeriti odstupanja.

Normalnost distribucije dnevnih prinosa važna je za donošenje odluka o ulaganju. Ako prinosi dionice nisu normalno distribuirani, već pokazuju asimetriju ili ekstremne vrijednosti, to može utjecati na rizik i povrat portfelja. To može značiti da postoji veća vjerojatnost za neočekivane ekstremne događaje.

Deskriptivna analiza može uključivati i mjere kao što su koeficijent asimetrije (skewness) i spljoštenost (kurtosis), koji pokazuju oblik distribucije podataka.

Identifikacija iznimki (outliera)

  • Outlieri su podaci koji se značajno razlikuju od ostalih vrijednosti. Mogu se pojaviti zbog pogrešaka u podacima ili predstavljati važne iznimke koje treba dodatno analizirati.

Boxplotovi i statističke metode poput Z-scorova ili IQR metode koriste se za identifikaciju outliera.

Primjenom IQR metode, mogu se identificirati iznimni skokovi ili padovi cijena dionica koji se ne uklapaju u uobičajeni raspon cijena. Na primjer, ako dionica ima iznimno visok rast cijene zbog najave nove tehnologije, to bi mogao biti outlier. Takvi outlieri mogu predstavljati prilike za prodaju (kada su cijene previsoke) ili kupnju (kada su cijene preniske).

Iako outlieri mogu biti važni, mogu također i negativno utjecati na modele, pa je važno odlučiti hoćemo li ih zadržati ili ukloniti.

Prikaz cijena s označenim outlierima može biti koristan u prepoznavanju kada je dionica odstupila od svog tipičnog trenda. Na primjer, ako su cijene dionica u nekom trenutku značajno pale bez jasnog razloga, to bi mogao biti signal da investitori preuveličavaju rizike i da je ovo potencijalna prilika za ulaganje.