統(tǒng)計學(xué)專題培訓(xùn)課程課件



單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,0,13 十二月 2024,1,統(tǒng)計學(xué)專題培訓(xùn)課程,統(tǒng)計學(xué),教學(xué)課件,天津財經(jīng)學(xué)院統(tǒng)計系,高建國,第,1,章 總論,統(tǒng)計學(xué)是搜集數(shù)據(jù)、整理數(shù)據(jù)并從數(shù)據(jù)中獲取有用信息的一門方法論科學(xué)我們從數(shù)據(jù)中獲取的有用信息是來說明社會經(jīng)濟現(xiàn)象,總體,數(shù)量特征,的有限總體和無限總體,(,1,)認(rèn)識事物的現(xiàn)實狀況;(,2,)認(rèn)識隨機現(xiàn)象的統(tǒng)計規(guī)律;(,3,)減少人們對某種系統(tǒng)知識的無知而產(chǎn)生的認(rèn)識上的不確定性第,2,章 數(shù)據(jù)的搜集,一、一些基本概念,總體單位,總體,標(biāo)志,指標(biāo),數(shù)量指標(biāo),質(zhì)量指標(biāo),數(shù)量標(biāo)志,品質(zhì)標(biāo)志,數(shù)據(jù)的搜集也就是統(tǒng)計調(diào)查,它是保證我們獲取有用信息的關(guān)鍵變量,分為連續(xù)變量和離散變量,數(shù)量型和屬性變量,例,1,:調(diào)查天津市工業(yè)企業(yè),2001,年增加值的規(guī)??傮w是“全部工業(yè)企業(yè)”,總體單位是“每一工業(yè)企業(yè)”,標(biāo)志是“每一工業(yè)企業(yè)的增加值”,數(shù)量標(biāo)志,指標(biāo)是“增加值總和”,數(shù)量指標(biāo)例,2,:調(diào)查天津市學(xué)齡兒童入學(xué)情況總體是“所有兒童”,總體單位是“每一個兒童”,標(biāo)志是“是否入學(xué)”,品質(zhì)標(biāo)志,指標(biāo)是“入學(xué)率”,質(zhì)量指標(biāo)。
例,3,:調(diào)查天津市,2001,年居民年收入情況總體是“所有居民”,總體單位是“每位居民”,標(biāo)志是“每位居民的年收入”,數(shù)量標(biāo)志,指標(biāo)是年均收入,質(zhì)量指標(biāo)二、統(tǒng)計分組,1.,將統(tǒng)計調(diào)查所獲取的零散的不系統(tǒng)的資料,按照一定的研究目的和任務(wù),進(jìn)行加工和整理的一種行之有效的統(tǒng)計方法它可以幫助我們完成,4,種任務(wù)2.,分組時應(yīng)該正確選擇分組標(biāo)志,以免不能準(zhǔn)確的完成,4,種任務(wù);同時應(yīng)遵循互斥性和包容性原則,以免重復(fù)或遺漏3.,組距式分組中,應(yīng)該弄清一些概念:組數(shù)、組距及組距的類型(如等組距、異組距、開口組距、閉口組距)、組限(上限、下限、如何確定組限)、組中值(它的假定性、開口組距的組中值如何計算、用組中值計算的平均數(shù)是一個準(zhǔn)確值嗎)三、統(tǒng)計調(diào)查方案,是在背景分析的前提下,制定出的周密完整的,以指導(dǎo)調(diào)查工作順利完成的一項計劃任務(wù)書一項完整的統(tǒng)計調(diào)查方案包括,8,方面的內(nèi)容第,3,章 數(shù)據(jù)和統(tǒng)計指標(biāo)的基本類型,一、數(shù)據(jù)的類型,它分為總體總量和標(biāo)志總量(兩者要成對出現(xiàn)才能判斷,比如職工人數(shù)如何判斷,只有將它和工資總額或者和工業(yè)企業(yè)數(shù)結(jié)合在一起才能判斷出它的歸屬,即它和工資總額結(jié)合在一起,它是總體總量;它和工業(yè)企業(yè)數(shù)結(jié)合在一起,它是標(biāo)志總量);時期數(shù)又稱流量指標(biāo)和時點數(shù)又稱存量指標(biāo)(兩者判斷的正確與否對序時平均數(shù)的計算有至關(guān)重要的影響,序時平均數(shù)的計算將在第,13,章里講解,而如何判斷呢,,二、指標(biāo)的類型,有數(shù)量型數(shù)據(jù)(用數(shù)來表示且數(shù)的計算有意義)和品質(zhì)型數(shù)據(jù)(用文字來表示也可用數(shù)來表示但數(shù)的計算沒有意義)。
1.,總量指標(biāo),應(yīng)根據(jù)其特點即(,1,)與時間長短是否相關(guān),(,2,)前后時間上的數(shù)值相加是否有意義來判斷)2.,平均指標(biāo),在同質(zhì)總體內(nèi),通過“填平補齊”,“取長補短”的方式,獲得的描繪總體一般水平的指標(biāo)3.,相對指標(biāo),它有,5,種形式:動態(tài)相對指標(biāo),比較相對指標(biāo),計劃完成相對指標(biāo),結(jié)構(gòu)相對指標(biāo),強度相對指標(biāo)平均指標(biāo)和相對指標(biāo)統(tǒng)稱為比率型變量,我們在第,4,章里將涉及到這個概念,到時在詳談第,4,章 數(shù)據(jù)的描述性整理,一、數(shù)據(jù)分布狀態(tài)的描述方法,1.,分布列:有品質(zhì)型和數(shù)量型分布列它們是通過統(tǒng)計 表來描述數(shù)據(jù)的分布狀態(tài)在這里還應(yīng)該弄清楚以下概念:次數(shù)又叫頻數(shù)、頻率、頻數(shù)密度、頻率密度因為這些概念可以幫助我們了解數(shù)據(jù)的分布狀態(tài)2.,分布圖:有棒圖、直方圖、折線圖、曲線圖它們是通過統(tǒng)計圖來描述數(shù)據(jù)的分布狀態(tài)它們與分布列相比更加直觀畫圖時如果是等組距,那么可用頻數(shù)或頻率來做圖;如果是異組距,那么應(yīng)該用頻數(shù)密度或頻率密度來做圖二、數(shù)據(jù)分布的特征及特征數(shù),分布特征 分布特征數(shù),位置特征 平均數(shù)、中位數(shù)、眾數(shù),離散特征 全距、平均差、標(biāo)準(zhǔn)差、離散系數(shù),偏斜特征 偏態(tài)系數(shù),峰度特征 峰度系數(shù),三、幾種常用的位置特征數(shù),(一)平均數(shù),常見的有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)。
幾何平均數(shù)在第,13,章里會詳細(xì)加以解釋,這里主要講解前兩個對于絕對數(shù)和比率變量如何計算平均數(shù),我們可這樣做:,1.,先確定變量根據(jù)題意平均“誰”,“誰”就是變量比如,求平均日產(chǎn)量,則“日產(chǎn)量”就是變量;又如,求,50,家企業(yè)的平均計劃完成百分比,則“計劃完成百分比”就是變量2.,判別“所確定變量”的類型是絕對數(shù)變量,還是比率變量3.,如果是絕對數(shù)變量,那么權(quán)數(shù)是次數(shù)(頻數(shù))或頻率,并采用加權(quán)算術(shù)平均數(shù)的公式來計算如:“日產(chǎn)量”是絕對數(shù)變量,則權(quán)數(shù)是各組的人數(shù)或人數(shù)比重4.,如果是比率變量,那么要找出比率變量的基本比式,然后再根據(jù)已知資料來確定權(quán)數(shù)和計算公式如:“計劃完成百分比”是比率變量,其基本比式是實際數(shù)與,計劃數(shù)的比值那么權(quán)數(shù)和公式這樣選擇:,(,1,)若已知資料是比率變量和基本比式的分母資料,則權(quán)數(shù)為分母資料,用,f,表示,并采用加權(quán)算術(shù)平均數(shù)2,)若已知資料是比率變量和基本比式的分子資料,則權(quán)數(shù)為分子資料,用,M,表示,并采用加權(quán)調(diào)和平均數(shù)例如:通過調(diào)查獲取了,15,個企業(yè)的產(chǎn)值計劃執(zhí)行情況,如下表,(單位:萬元),計劃完成,%,企業(yè)數(shù)計劃產(chǎn)值,8090 2 100,90100 3 200,100110 6 400,110,以上,4 300,合 計,15 1000,計算,15,個企業(yè)的平均計劃完成百分比。
1,)在這道題中,我們平均的是“計劃完成百分比”,那么,它就是變量,用,x,表示,變量值為各組的組中值2,)該變量的性質(zhì)是比率變量,其基本比式是實際產(chǎn)值與計劃產(chǎn)值之比3,)從已知資料中可知條件是比率變量和基本比式的分母資料,則權(quán)數(shù)是分母資料“計劃產(chǎn)值”,用,f,來表示,采用加權(quán)算術(shù)平均數(shù)公式來計算即可二)中位數(shù),平均數(shù)的著眼點在于抵消各觀察值之間的數(shù)量差異,表明將各個觀察值“截長補短”以后的平均水平中位數(shù)的著眼點在于尋求全部觀察值按其大小順序排列,居中間位置的一般水平例如:人口的年齡分布往往近似,J,型:嬰兒數(shù)最多,隨著年齡的增大,人數(shù)逐漸下降,到了百歲左右,所剩的人,(三)眾數(shù),眾數(shù)的著眼點在于尋求各組中頻數(shù)最多的觀察值用 來反映要了解的現(xiàn)象中最普通、最常見的數(shù)值水平數(shù)就很少了如果計算年齡的算術(shù)平均數(shù),老年人口數(shù)雖然較少,但其年齡數(shù)值很高,這樣一來,計算的平均年齡就會偏向老年一方因此,各國的人口統(tǒng)計資料中,平均年齡的計算一般采用中位數(shù)比如,一位食品部經(jīng)理想按照預(yù)期的銷售量來分配貨物架的空間從這個意義上來說,我們應(yīng)該依據(jù)眾數(shù),而不是平均數(shù)或中位數(shù)來確定,即過去具有最高銷售量的食品將得到最大限度的貨物架空間。
又如,如果你的業(yè)務(wù)是提供足球運動衫的號碼,那么,哪一種度量對你來說更為有用:平均數(shù)、中位數(shù)或眾數(shù)?當(dāng)然是眾數(shù)四、離散特征數(shù),有,4,種:一是全距:在實際生產(chǎn)中稱之為極差,用,R,表示二是平均差:有簡單式和加權(quán)式之分當(dāng)平均數(shù)是簡單算術(shù)平均數(shù)時,平均差便采用簡單式;當(dāng)平均數(shù)是加權(quán)算術(shù)平均數(shù)時,平均差便采用加權(quán)式三是標(biāo)準(zhǔn)差(方差):也有簡單式和加權(quán)式之分和平均差一樣,選擇哪種形式要依賴于平均數(shù)的計算四是離散系數(shù):有全距系數(shù)、平均差系數(shù)和標(biāo)準(zhǔn)差系數(shù)一般地,標(biāo)準(zhǔn)差系數(shù)的應(yīng)用場合較多例,1.,甲、乙兩個企業(yè)平均每月的勞動生產(chǎn)率都是,8000,元,它們的標(biāo)準(zhǔn)差分別是,320,元和,240,元,那么哪個企業(yè)的勞動生產(chǎn)率的代表性更強?,對于這種情況,因為甲乙兩個企業(yè)的總體平均水平是相同的,所以,我們可以直接根據(jù)標(biāo)準(zhǔn)差的大小來判別乙企,業(yè)的勞動生產(chǎn)率的代表性強例,2.A,、,B,兩個商場,2000,年平均每月的銷售額分別為,16000,元和,8000,元,它們的標(biāo)準(zhǔn)差各為,320,元和,240,元,那么哪個商場的銷售額穩(wěn)定些?,例,3.,對某系一年級的,100,名男生進(jìn)行調(diào)查,得到平均身高為,172,厘米,平均體重,68,公斤,各自的標(biāo)準(zhǔn)差分別為,6,厘米和,4,公斤,那么,100,名男生的身高和體重何者離散較嚴(yán)重?,對于例,2,和例,3,這兩種情況,由于面對的一個是兩個總體水平相差很懸殊,一個是兩個總體的性質(zhì)或計量單位不同,我們不能直接根據(jù)已知的標(biāo)準(zhǔn)差的大小來判別總體內(nèi)變量值的離散程度,應(yīng)該計算兩個總體各自的標(biāo)準(zhǔn)差系數(shù)。
結(jié)果是例,2,中,,A,商場的標(biāo)準(zhǔn)差系數(shù)是,2%,,,B,商場的標(biāo)準(zhǔn)差系數(shù)是,3%,,即,A,商場的銷售額穩(wěn)定例,3,中,身高的標(biāo)準(zhǔn)差系數(shù)是,3.49%,體重的標(biāo)準(zhǔn)差系數(shù)是,5.88%,,即,100,名男生體重的離散較嚴(yán)重第,5,章 隨機試驗和隨機變量,一、隨機現(xiàn)象,在給定條件下,不能確切預(yù)見其結(jié)果的現(xiàn)象1.,由于存在著不能確定的和不能完全預(yù)見的偶然性的影響因素,隨機現(xiàn)象便產(chǎn)生了2.,隨機現(xiàn)象具有一定的規(guī)律性規(guī)律值附近發(fā)生的可能大,規(guī)律值遠(yuǎn)處發(fā)生的可能小3.,要保證給定的條件是相同的二、隨機試驗(可重復(fù)、不可重復(fù))、事件(基本事件、復(fù)合事件;必然事件、不可能事件),三、概率,有主觀概率和客觀概率之分在以后章節(jié)中涉及到的概率是指客觀概率,即大量觀察條件下頻率的穩(wěn)定值四、隨機變量及其分布,書中,127,頁第,1,個例子的隨機變量是“可能出現(xiàn)的點數(shù)”,第,2,個例子的隨機變量是“等待時間”,第,3,個例子的隨機變量是“取出球的顏色”從上述,3,個例子中可以看到例,1,和例,3,是離散型隨機變量,例,2,是連續(xù)型隨機變量我們通過“分布”來刻畫隨機變量的特征也可以通過特征數(shù)來認(rèn)識隨機變量的特征第,6,章 有限總體概率抽樣,一、一般問題,抽取樣本時我們應(yīng)該作到:對每一次抽取行為都應(yīng)精心組織,使得此時尚留在總體中的所有單位都有可能被抽到,且有確定的,不等于零的被抽中的概率。
例如,一個籠子里裝有,800,只兔子,調(diào)查人員閉上眼睛將手伸入籠中抓取兔子的行為,是不是符合隨機抽取的原則正確的作法是:在,800,只兔子身上編上號碼,并做好,800,個鬮,放在盒子里充分?jǐn)噭?,從盒子里隨機抽取一個號碼,號碼是幾,就從籠子中抓出相同號碼的兔子這就符合隨機抽取的原則了如果向例子中所描述的那樣“閉上眼抓兔子”那屬于隨便抓取,因為在籠口附近的兔子被抓住的可能大于遠(yuǎn)離籠口的兔子等概率和不等概率抽樣的共同點:各單位都有確定的不等于零的被抽中的概率二、一些基本概念,例:某微波爐生產(chǎn)廠家想要了解微波爐進(jìn)入居民家庭生活的深度為此從某地區(qū)已購買了微波爐的,2200,個居民戶中用簡單隨機抽樣方法以戶為單位抽取了,30,戶,詢問每戶一個月使用微波爐的時間調(diào)查結(jié)果依次為(分鐘):,450 900 50 700 400 520 600 340 280,800 750 550 20 1100 440 460 580 650,430 460 450 400 360 370 560 610 710 200,試估計該地區(qū)已購買了微波爐的居民戶平均一戶一個月使用微波爐的時間,并以,95.45%,的置信概率做保證對平均使用微波爐的時間進(jìn)行區(qū)間估計。
根據(jù)該例子我們來了解一下一些概念1.,題中的,N=2200,就是“,有限總體,”,,n=30,就是“,概率樣本,”2.30,戶居民的平均使用微波爐的時間,:,(分鐘),和方差,是“,統(tǒng)計量,”3.,我們用樣本統(tǒng)計量,作為對有限總體指標(biāo),的估計,,用,來表示,稱之為“,估計量,”4.,點估計:,用樣本估計量及其觀察值來表達(dá)對總體指標(biāo) 的估計即,5.,區(qū)間估計:用一個取值區(qū)間來表達(dá)對總體指標(biāo)的估計這個數(shù)值區(qū)間叫作置信區(qū)間該題的置信區(qū)間為 至,區(qū)間的左端為置信下限,右端為置信上限式中的臨界值,z,,根據(jù)置信概率來確定本題的樣本容量為,30,,屬大樣本,應(yīng)查標(biāo)準(zhǔn)正態(tài)分布表,不過。
