Monthly Archives: January 2013

Námskeið í tölfræðigreiningu

CourseraVefurinn Coursera.org býður upp fjölbreytt úrval námskeiða í samstarfi við marga af fremstu háskólum heims. Það er einfalt að stofna aðgang að síðunni og skrá sig inn í námskeið. Ekki er síður vert að nefna að þátttaka í námskeiðum er ókeypis. Þetta er kjörið tækifæri fyrir þá sem fýsir í að kafa dýpra í efni á sínu sviði eða til að rifja upp. Þá er alltaf ögrun í að læra eitthvað nýtt ef það er í boði. Lengd námskeiða er breytileg en algengt að þau spanni á bilinu fimm til tíu vikur

Á morgun, þriðjudaginn 22. janúar, hefst áhugavert námskeið í gagnagreiningu (Data Analysis). Fyrirlesari er Jeff Leek, prófessor í líftölfræði við John Hopkins Bloomberg háskólann í lýðheilsufræðum. Samkvæmt námskeiðslýsingu á námskeiðið að hjálpa nemendum að beita aðferðum í tölfræði og nota til þess R-hugbúnaðinn.

Vonandi höfðar þetta námskeið eða önnur til einhvers, sem les þessar línur. Svo lengi lærir sem lifir.

Poisson líkindadreifingin

Í fyrri færslu um líkindadreifingar var fjallað um stakrænar og samfelldar dreifingar. Þar var rakið að í tjónalíkönum má nota stakrænar dreifingar til þess að tákna tíðni tjóna en samfelldar dreifingar til að tákna stærðargráðu hvers tjóns. Útkomur stakrænna dreifinga eru heilar tölur, þ.e. 0, 1, 2, 3, o.s.frv. en útkomur samfelldra dreifinga allar rauntölur. Fyrir tjónalíkön takmörkum við valið við samfelldar dreifingar með útkomur stærri en núll.

Stikar líkindadreifinganna lýsa stærð og lögun líkindadreifi- og líkindaþéttifallanna. Þá sýnir yfirlitið, sem fylgdi í fyrri færslu, ýmsar gagnlegar stærðir hverrar dreifingar, t.d. væntigildi og staðalfrávik. Væntigildi líkindadreifingarinnar lýsir meðalútkomu og staðalfrávik er mælikvarði á frávik frá meðalútkomunni.

Dæmi um stakræna líkindadreifingu er Poisson dreifingin, sem notar stikann (gríska bókstafinn lambda). Stikinn lýsir hvort tveggja meðaltali og ferviki (staðalfráviki í öðru veldi) Poisson dreifingarinnar. Útkomurnar eru heilar tölur stærri en eða jafnar núlli og má nota til þess að tákna fjölda atburða á sérhverju tímabili.  Samkvæmt líkindafallinu eru líkur á k atburðum jafnar

.

Þ.e.a.s. líkurnar á útkomunni núll og þar með engum atburði eru , líkur á einum atburði eru , líkur á tveimur atburðum eru , líkur á þremur atburðum eru , o.s.frv. Mynstrið er þekkt.

Líkindafall Poisson dreifinga

Líkindafall Poisson dreifinga

Hugsum okkur dæmi um tryggingafélag, sem flokkar ökumenn þrjá áhættuflokka: lægstamiðlungs og hæsta. Félagið notar Poisson líkindadreifinguna til þess að tákna tjónatíðni þeirra. Það hefur fundið út að viðskiptavinir í lægsta áhættuflokki valdi að jafnaði 0,1 tjóni á ári pr. ökumann en 0,4 tjón á ári pr. ökumann í miðlungs áhættuflokki og 0,7 tjón að jafnaði í þeim hæsta. Með því að setja stuðlana inn í jöfnurnar fyrir ofan má finna líkindi á fjölda tjóna, sem ökumaður í hverjum flokki veldur. Niðurstaðan er sýnd í meðfylgjandi töflu og líkindafallið er sýnt á myndinni til hægri.

 Fjöldi Áhættuflokkur
tjóna Lægsti,  Miðlungs,  Hæsti, 
0 0.905 0.670 0.497
1 0.090 0.268 0.348
2 0.005 0.054 0.122
3 <0.001 0.007 0.028

 

Um meðalverðsútreikninga

Gefum okkur að tvö fyrirtæki, A og B, selji fisk. Fyrirtæki A selur 99 kg á 100 kr/kg fyrir samtals fyrir 9.900 krónur. Fyrirtæki B selur eitt kíló á 900 kr pr. kíló.

Einfalt meðaltal einingaverða

Einfalt meðaltal einingaverða.

Hér væri hægt að hrapa að þeirri niðurstöðu að meðalverð í viðskiptunum hefði verið 500 krónur pr. kg, eða

Þetta er sýnt myndrænt hérna til hægri þar sem tveimur ímynduðum kössum hefur verið komið fyrir á pallettu. Stærð kassana táknar magn í sendingu og lárétt staðsetning miðju kassanna lýsir einingaverði skv. skalanum fyrir neðan.

Þeir sem hafa vegið salt við aðra en jafnoka sína vita að pallettan á myndinni til hægri héldist ekki í jafnvægi ef græna flegnum væri komið fyrir undir henni miðri. Það hefur þó verið reynt.

Einfalt er að reikna meðalverð pr. kg í þessum viðskiptum með því að deila heildarmagni upp í heildarverðmæti. Samanlagður útflutningur fyrirtækjanna er 100 kg og samanlagðar tekjur vegna sölunnar eru kr. 10.800. Rétt niðurstaða verður 108 kr/kg, eða svona

Önnur leið að sömu niðurstöðu er að reikna vegið meðaltal einingaverðanna þar sem vogtölurnar lýsa hlutfalli hvorrar sendingar af heildarmagni, þ.e. 99% og 1%. Niðurstaðan er hin sama og áður

Vegið meðalverð einingaverða

Vegið meðalverð einingaverða.

Myndin hér til vinstri sýnir dæmi með sömu pallettu. Græni fleygurinn lýsir þeim punkti þar sem pallettan helst í jafnvægi. Í eðlisfræði heitir þetta að finna massamiðju kassanna saman. Þegar fleygnum er komið fyrir undir miðpunktinum er vægi beggja kassa um snúningsásinn það sama og pallettan helst í jafnvægi.

Snemma sl. sumar vann ég greiningu að eigin frumkvæði upp úr gögnum um útflutningsverð á heilum karfa, sem komið höfðu fram vegna rannsóknar gjaldeyriseftirlits Seðlabanka Íslands á meintum brotum Samherja á lögum um gjaldeyrismál. Um greininguna var fjallað ítarlega í prentaðri útgáfu Viðskiptablaðsins og í styttra máli á vefnum.

Málið vakti aðallega áhuga minn vegna þess að himin og haf bar á milli þess, sem spurðist um ásakanir gjaldeyriseftirlitsins í fréttum, og svörum Samerja við þeim ásökunum. Í þrætum um huglæg málefni getur einum fundist eitt rétt og öðrum annað en ógjörningur er að reikna út hvor hefur á réttu að standa. Í prósentuútreikningum er jafnan ein niðurstaða rétt en hinar rangar.

Þeir sem hafa áhuga á efninu geta kynnt sér mína aðferð og niðurstöður hérna. Fylgiskjölin, sem vísað er til, eru meðal gagna gjaldeyriseftirlitsins og hægt að nálgast á heimasíðu Samherja. Seinna kom ég að vinnu sem varðaði útflutningsverð fleiri afurða og greint var frá hér og hér svo dæmi séu nefnd.