Næste skridt begynder med en gennemgang af data for at se om noget stikker ud. Jeg starter med at se på hvilke informationer, der er lagret. Er det tal eller tekst, og kan det i givet fald kvantificeres?
Hvis det kan kvantificeres så laver jeg nogle simple beregninger såsom middelværdi, maksimum og minimum, for at se om noget stikker ud. Hvis der skulle være store udslag, så skal det undersøges nærmere og eventuelt fjernes fra data.
Derudover skal det undersøges om der er store udsving f.eks. pågrund af sæsonmæssige ændringer. Før selve analysen kan begynde, bruger jeg derfor en del tid på at forstå og eventuelt korrigere data via følgende metoder
- Interpolation – hvis der er mindre huller, og man kan bruge omkringliggende data som tilnærmet værdi.
- Substitution – hvor man sammenholder data med supplerende data, der kan afdække manglende information i hovedkilden.
- Normalisering – hvis der er sæsonmæssige forskelle, der giver store udsving i data.
Efter en grundig undersøgelse og datakorrektion, så kan man begynde at besvare spørgsmål i analysen.
