網易 UEDC – 盛少奇:互聯網時代的「長尾理論」,讓我們重新認識了小衆用戶、小衆產品、亞文化羣體的意義和價值。網絡上的亞文化羣體,包括嘻哈文化、二次元、同性戀文化、宅文化、小清新、非主流等等,小衆羣體包括小衆作者的粉絲、小衆產品的用戶等;現實生活中,亞文化羣體則包括性工作者、吸毒者、流浪藝人等所謂的「隱藏人口」。

如何研究這些羣體,收集他們的信息爲我所用呢?顯然,概率抽樣、問卷調查可能是一種流行的做法。

概率抽樣的困境

在研究小衆羣體或亞文化羣體時,通常會面臨一系列抽樣困境:第一,這些小衆羣體或亞文化羣體在總體中所佔比例較低,羣體的規模和邊界不太清楚,很難找到合適的抽樣框;第二,小衆羣體,尤其是亞文化羣體的成員,常常因種種原因拒絕暴露自己的身份,這就加大了我們獲取有效信息的難度。

舉個例子:假設在 A 社交平臺上,我們的研究對象是同性戀羣體,我們想了解這羣用戶的情況。假設 A 社交平臺有 1 億用戶,其中有 5 萬名用戶受同性戀文化影響。我們通過簡單隨機抽樣,抽取一個 10 萬人的樣本(已經是相當大的樣本了),從中可以得到的同性戀亞文化羣體樣本也只有 50 個左右,考慮到亞文化羣體較高的拒訪率,實際獲得的樣本可能更少。顯然,概率抽樣的效率極低。

受訪者驅動抽樣的優勢

那麼有沒有更好的方法呢?受訪者驅動抽樣(Respondent-Driven Sampling,下文簡稱RDS)在很大程度上能解決這種抽樣困境。RDS 抽樣承襲自雪球抽樣(snow-ball sampling),先從總體中的少數成員開始調查,由已知成員推薦符合要求的新成員,然後樣本像滾雪球一樣越來越大。雪球抽樣雖然操作簡單,但它是非概率抽樣,並非按照隨機抽樣原則來抽取樣本,失去了大數定律的存在基礎,也就無法確定抽樣誤差,無法準確地說明樣本的統計值在多大程度上適合於總體。

RDS 不僅具有類似雪球抽樣的易操作性,同時它又有效解決了抽樣偏誤和抽樣概率未知等問題,可以對總體情況做出相對準確的估計。

RDS 抽樣的理論基礎源自社會網絡分析(social network analysis)中的小世界網絡(small world)理論。社會網絡分析是一種分析社會結構的理論和方法,將人與人之間、羣體與羣體之間的聯繫視爲一條條連線,整個社會結構就可以視爲由各個點及其連線構成的一張大網絡[i]。小世界網絡是指,網絡中大部分的節點彼此並不相連,但絕大部分節點之間經過少數幾步就能聯繫在一起。

△ 小世界網絡(Small-world)

哈佛大學心理學教授斯坦利·米爾格拉姆做過一次連鎖信實驗,證明平均只需要 6 步就可以聯繫任何兩個互不相識的美國人,這便是著名的「六度分隔理論」。而 Facebook 2016 年公佈的官方研究報告(Research At Facebook)則顯示,全球 15.9 億用戶中間,僅僅隔着 3.57 個朋友而已。

△ 2016年,Facebook上15.9億人中間,僅隔着3.57個朋友而已

弱關係的力量

提到網絡分析,就不能不提格蘭諾維特以及那篇令他聲名大噪的論文──《弱關係的力量》(The strength of weak ties),這篇論文是社會學史上引用率最高的論文,他本人也憑藉其在網絡分析領域的傑出貢獻,作爲一個社會學家,提名了諾貝爾經濟學獎。

論文的核心觀點是:與自己頻繁接觸的親朋好友是一種「強關係」,通過這種關係獲取到的往往是同質性的信息。但社會上更爲廣泛的是一種並不深入的人際關係(即弱關係),這種弱關係能夠使個體獲得通過強關係無法獲取到的信息,從而在工作和事業上、在信息的擴散上起到決定作用。[ii]

△ 強關係與弱關係

RDS 抽樣依據社會網絡理論認爲,個人總是生活在一定的網絡之中,一旦我們知道了這些亞文化羣體或者小衆羣體的社會網絡構成情況,那麼我們也就能對總體人口的特徵有一個比較清晰的認識。

RDS 方法與常規抽樣方法的最大區別在於:常規抽樣方法是先從界定清晰的總體中抽取出一定數量的有代表性的樣本,然後根據樣本情況直接估計總體的參數。而在 RDS 方法中,總體是尚不清晰的,從總體的社會網絡中抽取樣本,先估計樣本所在社會網絡的情況,然後再根據網絡情況來推斷總體的情況[iii]。

△ 常規抽樣方法與RDS方法的差異

RDS抽樣的具體操作方法

  1. 研究者先任意找到幾個符合調查要求的目標用戶,這幾個目標用戶是我們的「種子」,研究者對種子進行調查,並給他們發放物質獎勵作爲酬謝,這就是調查的起始輪次(wave 0)。
  2. 研究者給種子發放一定數量的調查券,調查券上必須標明新受訪者的編號(在推算子羣體在總體中所佔比例會用到),讓種子把這些調查券發給自己認識的、符合調查要求的目標用戶,並承諾:只要得到調查券的人接受調查,不僅接受調查的人會得到物質獎勵,推薦他來的種子也會因爲推薦新人而得到額外獎勵。
  3. 研究者確認持首輪調查券來接受調查的人是否屬於目標用戶,如果符合,就對其進行調查,調查後給他們發放獎勵,同時給招募他們的種子發放獎勵。這是研究的第一輪次(wave 1)。
  4. 研究者給每一個第一輪受訪者發放同樣數量的次輪調查券,並標上新一輪被調查者的編號。要求他們把調查券發給自己認識的目標羣體成員,並同樣承諾會同時爲持券接受調查者和招募者發放獎勵,新的受訪者還會得到招募新人和獲得獎勵的機會。
  5. 經確認後調查每個持次輪調查券來接受調查的目標用戶,並獎勵受訪者及其招募人,完成第二輪次調查(wave 2)。
  6. 重複以上步驟,進行下一輪調查,直到達到研究設計所確定的樣本總數爲止。

△ RDS抽樣的具體操作方法

美國社會學家赫克索恩證明了 RDS 抽樣方法是一個一階馬爾科夫過程(first-order Markovprocess)[iv],即樣本在招募被訪者的過程中會實現均衡,並與初始的種子相互獨立。此外,他的研究結論還證實了,研究者初始選擇的「種子」,並不需要刻意保持隨機性,而且使用 RDS 方法無需經過太多輪次就可使樣本達到均衡。

RDS 抽樣在國外已有了豐碩的研究成果,尤其在諸如艾滋病患者、性工作者等亞文化羣體中。赫克索恩也曾在互聯網上使用 RDS 對在校大學生抽樣,與常規概率抽樣進行對比,並得出結論:RDS 的估計值不僅合理,還可以進一步提高精確性。

總而言之,對於用戶研究來說,當我們研究的羣體小衆或用戶調研參與意願低,那麼 RDS 不失爲一種很好的替代概率抽樣的方法。

參考文獻:

  • 劉林平,範長煜,王婭. 被訪者驅動抽樣在農民工調查中的應用:實踐與評估[J]. 社會學研究,2015,30(02):149-173+244-245.
  • 趙延東,Jon Pedersen. 受訪者推動抽樣:研究隱藏人口的方法與實踐[J]. 社會,2007(02):192-205+208.
  • Granovetter M S. The strength of weak ties[M]//Social networks.1977: 347-367.
  • Heckathorn D D. Respondent-driven sampling: a new approach to thestudy of hidden populations[J]. Social problems, 1997, 44(2): 174-199.
  • [i]趙延東,JonPedersen.受訪者推動抽樣:研究隱藏人口的方法與實踐[J].社會,2007(02):192-205+208.
  • [ii]轉自維基百科:馬克·格蘭諾維特
  • [iii]趙延東,JonPedersen.受訪者推動抽樣:研究隱藏人口的方法與實踐[J].社會,2007(02):192-205+208.
  • [iv]如果某一事件每次發生狀態轉移時,都只與上一時刻的狀態有關,而與過去的狀態無關,則稱此狀態轉移過程爲馬爾可夫過程。

歡迎關注「網易UEDC」公衆號:

相關文章