Interpretacija klastera u kontekstu strategije
- Profil klastera:
- Klaster 0: U ovom klasteru nalaze se uzorci koji dijele slične karakteristike u sva tri pogleda (tehnički pokazatelji, makroekonomski faktori, industrijski pokazatelji).
- Klaster 1: Sadrži uzorke s različitim kombinacijama karakteristika, koje se razlikuju od klastera 0 i 2.
- Klaster 2: Ovo je treći klaster, čiji uzorci možda imaju specifične karakteristike koje su drugačije od uzoraka u klasterima 0 i 1.
- Razrada strategije po klasterima:
- Klaster 0 može predstavljati kompanije ili financijske instrumente koji su stabilni ili imaju sličan obrazac kretanja unutar sva tri pogleda. Strategija ovdje može biti dugoročnije ulaganje.
- Klaster 1 može sadržavati subjekte s izraženijim razlikama, što može upućivati na volatilnost ili specifične prilike. Ovdje bi strategija mogla uključivati špekulativne ili kratkoročne pristupe.
- Klaster 2 može upućivati na subjekte s unikatnim karakteristikama, gdje bi se mogla primijeniti strategija prilagođena specifično tim razlikama, poput diverzifikacije.
Korak 1: Analiza karakteristika unutar klastera
- Analizirat ćemo prosječne vrijednosti, raspon, varijabilnost i druge statistike za svaki klaster unutar svakog pogleda.
- To će nam pomoći da shvatimo specifične karakteristike svake skupine i što ih razlikuje.
Korak 2: Vizualizacija klastera
- Pomoću PCA (Principal Component Analysis) ili t-SNE (t-distributed Stochastic Neighbor Embedding) metoda smanjit ćemo dimenzionalnost podataka kako bismo lakše vizualizirali klastere u 2D prostoru.
Korak 3: Evaluacija klastera
- Koristit ćemo metrike poput Silhouette Score i Davies-Bouldin Score za procjenu kvalitete klastera.
Silhouette Score: Mjeri koliko su objekti unutar klastera bliski jedni drugima u usporedbi s objektima u drugim klasterima.
Davies-Bouldin Score: Niže vrijednosti ukazuju na bolje grupiranje, gdje su klasteri kompaktni i dobro razdvojeni.
Rezultati:
View 1 (npr. Tehnički pokazatelji):
- Klaster 0 ima visoke vrijednosti za Feature1, dok su ostale značajke u prosjeku blizu nule.
- Klaster 1 ima neutralnije vrijednosti s većinom značajki blizu nule, ali s nešto višim prosjekom za Feature3.
- Klaster 2 ima negativne vrijednosti u većini značajki, osim blago pozitivnog Feature4.
Ovaj pogled može pomoći u razlikovanju klastera prema tehničkim karakteristikama, gdje je klaster 0 specifično dominantan u Feature1.
View 2 (npr. Makroekonomski faktori):
- Klaster 0 ima visoke vrijednosti za Feature5, što može ukazivati na stabilnost ili rast u makroekonomskom smislu.
- Klaster 1 ima ujednačeno pozitivne vrijednosti u svim značajkama, sugerirajući manje oscilacije.
- Klaster 2 pokazuje niže prosječne vrijednosti, posebno za Feature5, što bi moglo signalizirati niži rast ili veću volatilnost.
View 3 (npr. Industrijski pokazatelji):
- Klaster 0 ima visoke vrijednosti za Feature3 i Feature4, sugerirajući jače industrijske karakteristike.
- Klaster 1 pokazuje umjerene pozitivne vrijednosti za Feature3 i Feature4, ali s negativnim trendom za Feature2.
- Klaster 2 ima negativne vrijednosti za Feature2 i Feature3, što može signalizirati slabije industrijske performanse.
Evaluacija kvaliteta klastera
- Silhouette Score: Vrijednost od -0.007 upućuje na vrlo slab razmak između klastera, što sugerira da podaci možda nisu prirodno grupirani u jasno razdvojene klastere. Niska vrijednost može također ukazivati da je broj klastera ili značajki koje koristimo potrebno prilagoditi.
- Davies-Bouldin Score: Vrijednost 5.48 također ukazuje na slabo definirane klastere, pri čemu su klasteri manje kompaktni i međusobno dobro odvojeni.
Obzirom da rezultati nisu dobri promijenit ću broj klastera i vidjeti hoće li se poboljšati kvaliteta grupiranja. Povećat ću broj klastera s tri na, recimo, pet klastera i ponovno izračunati prosječne vrijednosti, vizualizirati klastere, te izračunati Silhouette Score i Davies-Bouldin Score za ocjenu kvalitete.
Nšto malo bolji rezultati, ali i dalje nije dovoljno dobro. Silhouette Score: Vrijednost je i dalje negativna (-0.012), što sugerira da se klasteri još uvijek preklapaju. Iako je malo bolji nego prije, to ukazuje na kompleksnost podataka i mogućnost da prirodno grupiranje nije idealno definirano samo promjenom broja klastera. Davies-Bouldin Score: Vrijednost se smanjila na 4.64 (prije je bila 5.48), što znači da su klasteri nešto bolje definirani nego ranije, ali još uvijek nisu optimalni.
Obzirom da K-means ( koji je do sada služio z aklasterizaciju) probat ću promjenu prema boljim vrijednostima dobiti impementacijom Gaussian Mixture Model (GMM). On je fleksibilniji jer koristi distribucije umjesto kružnih klastera, što omogućuje bolje grupiranje kada se klasteri preklapaju.
Prosječne vrijednosti za svaki klaster sada su različitije, što može ukazivati na to da su klasteri bolje odvojeni nego ranije. Silhouette Score: Vrijednost od 0.062 pokazuje poboljšanje u odnosu na K-means, ali i dalje ukazuje na mogućnost preklapanja klastera. Iako rezultat nije visok, pozitivan je, što je bolji znak grupiranja nego negativne vrijednosti koje smo imali s K-means. Davies-Bouldin Score: Vrijednost 2.55 je značajno niža od prethodnih (oko 4.64), što sugerira da su klasteri sada bolje definirani i razdvojeni. Niža vrijednost Davies-Bouldin rezultata ukazuje na kompaktnije klastere s većom odvojenošću.
Za prilagodbu strategije na temelju karakteristika svakog klastera, fokusirat ću se na specifične prosječne vrijednosti i varijabilnost značajki unutar svakog klastera. Znači izbor strategija poput dugoročnog ulaganja za stabilnije klastere, špekulativno ulaganje za volatilnije klastere, i diverzifikaciju za klastere s mješovitim karakteristikama.
To bi izgledalo otprilike ovako:
- Definiranje klastera prema karakteristikama:
- Na temelju prosječnih vrijednosti, klastere kategoriziram prema karakteristikama (npr., stabilni, volatilni, mješoviti).
- Izdvojit ću klastere s pozitivnim vrijednostima značajki kao stabilnije, a one s negativnim ili promjenjivim vrijednostima kao volatilne.
- Prilagođena strategija za svaki klaster:
- Stabilni klasteri: Za klastere s visokim prosječnim vrijednostima u većini značajki, strategija bi mogla uključivati dugoročno ulaganje.
- Volatilni klasteri: Klasteri s izraženim varijacijama između značajki mogu biti prikladniji za kratkoročne, špekulativne strategije.
- Mješoviti klasteri: Klasteri s mješavinom pozitivnih i negativnih vrijednosti značajki mogli bi biti prilika za diverzifikaciju, s balansiranjem ulaganja.
Kriteriji za stabilnost klastera su doveli do toga da su svi klasteri klasificirani kao stabilni. Ovo može značiti da podaci imaju tendenciju ka stabilnosti, ili da su kriteriji za stabilnost postavljeni preblago. Davies-Bouldin Score (2.64) je relativno nizak, što ukazuje na to da klasteri imaju dobru separaciju i kompaktnost, ali ne toliko izraženu da bi jasno ukazivali na velike razlike između klastera. Priča postaje zanimljivija, ali i znatno kompleksnija.
Možemo postaviti strože kriterije za klasifikaciju klastera kao “stabilnih” kako bismo omogućili veću raznolikost u strategijama. Ili bi mogli odrediti dodatne podkategorije unutar stabilnih klastera, primjerice “vrlo stabilni” ili “umjereno stabilni”, što bi omogućilo različite strategije unutar dugoročnog ulaganja (npr., različiti stupnjevi rizika).
No, obzirom da su podaci slični u mnogim dimenzijama ( barem tako izgleda) možda se nešto krije “ispod površine” i to ne vidim pa bi zato bilo dobro to razjasnit.
Spectral Clustering će biti od pomoći da istražimo skrivene obrasce u podacima. On koristi informacije o međusobnim udaljenostima između podataka te pronalazi klastere u složenijim, nepravilnim strukturama.
- Umjereno stabilni klasteri (0, 1, 2, 3): Strategija je za ove klastere definirana kao Dugoročno ulaganje, što odgovara njihovoj stabilnosti i manjoj volatilnosti.
- Umjereno volatilni klaster (4): Strategija za ovaj klaster je Srednjoročno špekulativno ulaganje, što upućuje na nešto veći rizik i potrebu za aktivnijim upravljanjem investicijama.
Silhouette Score: Vrijednost od 0.068 pokazuje malo poboljšanje u strukturi klastera u odnosu na ranije rezultate, što upućuje na bolje definirane granice između klastera.Davies-Bouldin Score: Vrijednost od 2.61 također ukazuje na relativno dobru kompaktnost i razdvojenost klastera, što znači da su klasteri dovoljno različiti za primjenu diferenciranih strategija.
U redu. Sad smo došli do onog što ljudi valjda najviše vole. Da vidimo kako stvari stoje. Odradit ćemo simulaciju da viidmo kako bi svaka strategija funkcionirala u uvjetima tržišta tijekom povijesnih razdoblja. Simulirat ćemo povrat kroz nasumične varijacije koje oponašaju volatilnost, a onda bi na grafu morali vidjeti kako se kumulativni prinos razvija kroz vrijeme za svaki klaster.
Sad je red da probam i backtest u zadnjih 25g nasmično odabranih 40-ak dionica koje će prema definiranim pravilima biti stavljene u pripadajući klaster.
Rezultati su iznimno visoki prinosi što traži dublju analizu i redukciju potencijalnih faktora koji su možda uzrok takvih kretanja.
No, to će biti u narednoj objavi.