Kernel Density Evaluering estimater form av en tetthetsfunksjon . En tetthetsfunksjonen viser frekvensen som en variabel vises i et tilfeldig utvalg av en befolkning . The Kernel Density Estimering regnes som en ikke - parametrisk metode . I statistikken er det parametriske og ikke- parametriske metoder . Parametriske metoder gjør flere forutsetninger enn ikke- parametriske seg. Ingen forutsetninger om fordeling , betyr, eller standardavvik er nødvendig i ikke- parametrisk statistikk . For eksempel , hvis du ønsket å vite om den tiende test i et klasserom ville ha en høyere poengsum enn den første ni , i parametrisk resonnement du må vite gjennomsnitt og standardavvikfor å utlede et svar . I ikke- parametrisk resonnement , ganske enkelt å vite antall test er nok til å vite den siste testen har en 10 prosent sjanse for å bli over de tidligere score .
Kernel
The Kernel Density Estimering har to viktige komponenter: kernel og båndbredde . The Kernel er tetthetsfunksjonen . Det er seks vanlige typer tetthetsfunksjoner i ikke - parametrisk statistikk : normal , uniform , trekantede , Epanechnikov , quartic , triweight og cosinus . Hver av disse funksjonene brukes til å anslå hyppigheten av en tilfeldig variabel i en befolkning .
Båndbredde
Den andre komponenten , båndbredden , jevner ut resulterende data fra tetthetsfunksjonen av kjernen. Båndbredden har således i sterk grad påvirker visuell representasjon av data . En ujevn linje kan bli gradvis glattes før dataene er omskrevet slik at det ikke lenger kan benyttes . I det kjernetetthetestimering formel , er båndbredden representert ved bokstaven h . Det må være positiv og resultere i en fordeling som summerer til en.
Fordeler
Kernel Density Estimering har fordeler til andre ikke- parametriske estimeringsmetoder, spesielt histogrammer . Histogrammer representerer fordelingen av en variabel i binger langs en horisontal rekkevidde. Stablede beholdere utgjør en større tetthet av den variable i sektoren av dataene. Fordi histogrammer symboliserer data gjennom binger , er variabelen compartmentalized og forskjellige distribusjoner er hakkete og diskret , misrepresenting væske distribusjon av en variabel som virkelig eksisterer i en befolkning . Kernel Density Estimering bedre representerer dette flyt med jevn linje , hvis glatthet bestemmes av båndbredden valgt i kjernen tetthet formel .