多元回歸怎么控制變量,分布問題(二元,多元變量分布,Beta,Dir)

 2023-10-08 阅读 17 评论 0

摘要:? ? ? 這涉及到數學的概率問題。 二元變量分布: ? ? ??伯努利分布,就是0-1分布(比如一次拋硬幣,正面朝上概率) ? ? ? ? ?那么一次拋硬幣的概率分布如下: ? ? ? ? ? ? ? ?假設訓練數據如下: 多元回歸怎么控制變量,? ? ? ? ?? ? ? ? 那么根

? ? ? 這涉及到數學的概率問題。

二元變量分布:


? ? ??伯努利分布,就是0-1分布(比如一次拋硬幣,正面朝上概率)

? ? ? ? ?那么一次拋硬幣的概率分布如下:

? ? ? ?

? ? ? ?假設訓練數據如下:

多元回歸怎么控制變量,? ? ? ? ??

? ? ? 那么根據最大似然估計(MLE),我們要求u:

? ? ? ? ? ??

? ? ?求值推導過程如下:

? ? ?

? ? 所以可以求出:

stata三元變量變二元、? ? ? ? ? ? ? ?

? ? 以上的推導過程就是極大似然估計,我們可以看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。但是極大似然估計有它的局限性,當訓練樣本比較小的時候會導致Overfitting問題,比如說拋了10次硬幣,有8次朝上,那么根據極大似然估計,u的取值就應該是8/10(這符號頻率派的觀點)。如何解決這個問題呢?

? ?那么這時候就需要從貝葉斯理論出發,貝葉斯理論認為,u并不是一個固定的值,u是同樣服從某個分布,因此我們假設u有個先驗分布P(u)。

???但是如何選取這個先驗分布p(u)呢?

? ?我們知道

? ?

什么是二元變量。? ?因此我們希望先驗分布也可以有類似的概率分布,為什么這么說呢?因為后驗概率=先驗概率*似然函數,所以如果選擇的先驗分布和似然函數有一樣的結構,那么得到的后驗概率也會存在相似的結構,這樣會使得我們后面的計算簡便。

? ?共軛性:θ的后驗分布p(θ|x)與先驗分布P(θ)屬于同一分布,那么稱二者為共軛分布。

? ?因此我們假設u的先驗分布也為

? ? ????

? ?那么這時候數學里面有個分布叫做Beta分布:

? ? ?

貝塔分布與其他分布的關系。? ?那么假設我們投硬幣,m次正面,l次反面。總共是m+l=N次實驗:

? ?那么這時候u的分布為:

??

? ? ? ? ?依舊和先驗分布服從一樣的分布(共軛分布)

? ? ?假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

? ?

二元變量相關和回歸,? ? ? ?我們可以發現當m,N無限變大的時候,這種估計近似等于極大似然估計。

?

多元變量分布:


? ? ?很多時候,變元的不止只有兩個,還有多元,其實估計過程是類似的。? 假設有k維向量,其中某個向量Xk=1,其他等于0。

? ? ?例如某個變量x2發生,則X2=1,x=(0,1,0,0,0,0) ?以拋篩子為例子,總共有6個面。

? ? ?那么xk=1發生的概率為Uk,那么x的分布為:

? ??

? ? ?考慮n個獨立觀測值{x1,x2,...xn}D,對應的似然函數:

二元變量的相異度。? ??

? ? ?其中mk其實就是這么多次實驗中,uk出現的次數大小。估計極大似然估計,我們會得出:

? ??

? ? ?同理,為了避免數據量小導致的過擬合問題,我們對Uk也假設一個先驗分布:

? ? ?考慮到對于多元變量的分布u:

? ?

多元正態分布的方差?? ? ?因此我們選擇它的共軛分布狄利克雷分布為先驗分布:

? ? ? ??

? ? ?那么后驗分布=似然分布*先驗分布:

??

? ? ?依舊和先驗分布服從一樣的分布(共軛分布)

? ? ?假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

非對稱二元變量,? ??

? ? ?又因為對于狄利克雷分布:

? ??

? ? ?所以對于某個類的分布預測為: ??

轉載于:https://www.cnblogs.com/tectal/p/10146874.html

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/2/130261.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息