定點茶站案件的統計數據若失真,政策評估就會偏差,如何建立更可信的資料收集方式
一、摘要:把「數字」變回「可以依賴的證據」
當涉及高度污名、地下化與跨部門治理的議題時,統計數據往往不是「自然生成」,而是被制度、誘因與恐懼共同塑形的結果。若我們只用單一來源(例如查緝紀錄、裁罰件數、通報件數)去推估整體樣貌,政策就容易把問題看成「個人偏差」或「治安事件」,忽略結構性的風險與需求,進而造成資源錯置。尤其在定點茶相關案件中,資料失真常見於:定義不一致、漏報與重複計算、選擇性揭露、地方—中央口徑差、與執行者為了績效而產生的「可量化幻覺」。
要建立可信資料,核心不是「把人抓得更乾淨」或「問得更細」,而是要設計一套能在高敏感環境下仍可運作的資料治理:用一致的分類、可稽核的流程、跨來源的交叉驗證、去識別與安全保存、以及讓前線願意填、敢填、能填的回饋機制。換句話說,可信資料不是更嚴密的監控,而是更好的制度工程,讓定點茶的相關資訊在不增加風險的前提下被穩定紀錄、被正確理解、被負責任地使用。
二、為什麼資料會失真:不是「造假」,而是「被迫長成那樣」
資料失真最常被想成有人造假,但現實更常是:制度讓資訊只能以某種方式被記錄。第一種失真來自定義混亂:不同單位對案件類型、情境、角色、事件嚴重度的分類口徑不一,導致同樣情況在甲地被算作A、在乙地被算作B。第二種失真來自漏報:當通報會帶來查緝、曝光、家屬得知、或其他負面後果時,當事人與周邊支持者會合理地選擇沉默。第三種失真來自重複:跨縣市移動、跨平台聯繫、重複報案或多次接觸不同機構,若沒有去重機制,件數會被灌水。
第四種失真更隱性:績效導向的行政文化。當「能被計數的」才算成果,前線就會傾向把複雜情境剪成可填報欄位;久而久之,政策只看見表格上最容易被填的那部分,剩下的都變成「不存在」。在定點茶議題上,這會特別明顯:若只有查緝與裁罰資料最完整,政策就會自然地「相信查緝是最有效的工具」,因為它的數字最漂亮、最整齊、最能做KPI。
要破解失真,不是要求「更誠實」,而是反過來:承認資料本來就會偏,然後用制度把偏差可視化、可修正化、可追溯化,讓任何人看到數字時,都知道它的盲點與可信範圍。
三、先把問題說清楚:我們要收集的不是八卦,而是政策需要的「最小充分資訊」
建立可信資料的第一步,是明確界定:政策到底要回答什麼問題?不同問題需要不同資料,而不是「什麼都收」。以定點茶相關治理為例,常見政策問題至少有五類:
風險與傷害:暴力、脅迫、剝削、健康風險、心理壓力、居住與移動安全。
資源可近性:醫療、法律、社福、心理支持是否可取得,取得成本多高。
市場與環境變動:地理移動、價格壓力、第三方控制、平台與中介的角色。
執法與行政效果:查緝是否造成風險轉移?裁罰是否增加隱匿?是否提高求助門檻?
當事人處境與需求:最需要的支持是什麼?最害怕的風險是什麼?什麼情況下願意通報?
接著要做「最小充分資訊」設計:每個欄位都要能對應到政策問題,並且在倫理上可被正當化。像是身份細節、可回溯的聯絡方式、精確地點等,往往不該被例行收集;真正需要的是:事件類型、時間區間、風險因子、介入與轉介結果、以及在不同場域的趨勢變化。對定點茶議題尤其重要的是:把資料重心從「人」移到「情境」——紀錄風險結構,而不是追查個體。
四、資料架構設計:三層來源+一套對照表,才有辦法互相驗證
可信資料很少來自單一管道,尤其在高地下化領域。比較穩健的做法,是建立「三層來源」:
第一層:行政與司法資料(硬資料)
例如:查緝、裁罰、判決、社政服務量、醫療就診統計(以去識別方式)。它的優點是可持續、可長期比較;缺點是高度選擇性(只看得到被系統碰到的人)。
第二層:服務與前線資料(軟資料)
例如:外展、匿名諮詢、轉介紀錄、危機通報、庇護安置等。它更接近需求與風險,但容易受人力與機構習慣影響,紀錄格式常不一致。
第三層:社群與調查資料(情境資料)
例如:匿名問卷、滾雪球樣本的經驗調查、社群守望資訊的趨勢匯整、參與式研究的質性編碼。它能補足「系統看不見的人」,但要非常重視抽樣偏誤與倫理保護。
接著,用一套「對照表(crosswalk)」把三層資料接起來:同一種事件,在不同系統裡對應哪些分類?同一個風險因子,在不同單位的欄位名稱是什麼?同一個介入結果,如何被標準化描述?如果沒有這張對照表,定點茶相關資料永遠只能各講各話,無法做交叉驗證,也無法知道差異是「真實差異」還是「分類不同」。
五、關鍵技術一:去重、分群與時間窗,讓件數「不虛胖」
在敏感領域,重複計算常比漏報更難被察覺,因為它看起來像「服務量增加」。要讓資料可信,至少要做三件事:
1)事件去重(event de-duplication)
同一事件可能被不同系統記錄:例如先匿名求助、後正式報案、再接受醫療與社福。若沒有去重機制,會把一件事算成三件。去重不必靠個資,可用「模糊匹配」:事件類型+時間窗(例如7天內)+地理層級(例如行政區,不到門牌)+若干非識別特徵(例如是否涉及第三方控制、是否有暴力、是否需要醫療)。這些特徵組合可形成「事件指紋」,用來判斷高度疑似同一事件。
2)個案分群(case clustering)
同一人可能在不同時間有多次事件,政策需要的是「風險軌跡」而不是散點。分群讓你看到:哪些情境會反覆出現?哪些介入能降低再發?在定點茶議題上,分群尤其能辨識「風險累積」:例如被第三方控制、經濟壓力、居住不穩、跨縣市移動等因素如何交疊。
3)時間窗(time window)
政策評估要看趨勢,就要固定比較窗口(例如月、季、半年),並明確標注資料延遲(lag)。很多行政資料會延遲入庫,若不標注,某個月看起來「下降」,其實只是還沒進資料。把這些做清楚,定點茶相關的件數才不會忽高忽低、被誤讀成政策效果。
六、關鍵技術二:抽樣策略要「承認看不見」,用多方法補洞
在地下化情境中,傳統的隨機抽樣往往做不到,因為名單不存在、接觸本身就有風險。可信資料不是假裝自己能代表全體,而是誠實地估計偏誤並用多方法補洞:
1)多階段滾雪球+網路時間地點抽樣(TLS)
在相對可接觸的場域,以時間—地點作為抽樣框架,再透過受訪者推薦擴展,但要設計「上限與分散」避免同溫層。
2)回應者驅動抽樣(RDS)
若要推估比例(而非只是描述),RDS能在特定假設下修正部分網絡偏誤,但前提是要有足夠樣本量與網絡資訊,而且倫理風險要控好。
3)哨點制度(sentinel sites)
選擇少數地區做深度、長期、穩定的資料追蹤,目標不是代表全國,而是提供「變動警訊」:例如暴力型態變化、求助門檻變化、健康風險變化。對定點茶政策來說,哨點能在大數據失真時提供校正參考。
4)三角驗證(triangulation)
同一個結論必須由不同來源支持:例如服務量上升,是否也反映在匿名諮詢趨勢?是否也反映在醫療端的去識別統計?如果只有一條線在動,很可能是制度或紀錄方式改了,而不是現實改了。
七、倫理與安全:沒有「可信資料」之前,先確保「不造成新傷害」
在高度污名議題上,資料收集本身就可能造成傷害:曝光、被追查、被家人發現、被第三方報復、或被系統標記。要讓前線與當事人願意合作,必須把倫理做成可操作的規格,而不是一句「我們會保密」。
1)去識別與分離保存
身份資訊(若不得不收)與事件內容必須分庫、分權限、分密鑰;一般分析只用去識別資料。
2)最小化原則
能不用就不用;能用區間就不用精確;能用類別就不用文本。
3)安全模型與外部稽核
資料庫要有存取記錄、異常警示、定期滲透測試或第三方資安稽核。
4)使用目的鎖定(purpose limitation)
資料只能用於明確政策評估與服務改善,不得挪作查緝名單、不得做個體追蹤。這一點若不寫進制度,定點茶相關資料永遠收不穩,因為所有人都會合理地擔心「今天給了,明天就被拿去對付我」。
可信資料的底層,是信任;信任不是口號,是可驗證的制度安排。
八、治理機制:讓資料不再是單方敘事,而是可被挑戰的公共知識
很多政策失準,不是因為沒有資料,而是資料被少數單位壟斷解釋權。要提高可信度,需要把資料治理做成「可被挑戰」:
1)建立跨部門資料治理委員會
包含社政、衛政、警政、司法、地方政府與獨立專家,並納入具實務理解的民間團體代表(以不暴露個案為前提)。
2)公開方法、不是公開敏感資料
公開分類口徑、去重規則、缺漏估計方法、資料延遲、抽樣框架;但不公開可識別內容。
3)版本控管與變更紀錄
任何欄位、定義、流程變更,都要像軟體更新一樣留下版本紀錄,否則年度比較沒有意義。
4)把不確定性寫進報告
每次發布定點茶相關統計,都要附上「可信區間」或至少附上偏誤討論:哪些族群可能被低估?哪些地區可能因執法強度而高估?這不是示弱,而是專業。
當資料能被挑戰、能被重現、能被稽核,它才會逐漸脫離政治口水與績效遊戲。
九、指標設計:別再只看件數,改看「風險、可近、結果」
若政策只用「案件數」評估,很容易把查緝當成唯一工具;但案件數下降可能只是更地下化、求助更困難。更好的指標組合,應該至少包含三類:
1)風險指標(Risk)
暴力事件比例、第三方控制的跡象、跨區移動頻率、居住不穩比例、強迫或脅迫訊號等。
2)可近性指標(Access)
匿名諮詢等待時間、轉介成功率、醫療服務可近度、法律扶助到達率、求助後不良後果(例如被曝光)發生率。
3)結果指標(Outcome)
再受害率、危機重複發生率、身心健康改善、自主性提升、經濟壓力下降、退出或轉換的自願性與安全性等。
這些指標要能跨來源計算,並且要能反映「制度介入」而非「個人被管理」。對定點茶政策評估而言,若能用這套指標組合,才有機會看清:究竟是風險真的下降,還是只是被趕到更看不見的地方。
十、落地路線圖:用小規模試點把制度磨出來,再擴張到全域
最後是最現實的:再好的設計,沒有落地流程就只是紙上方案。建議用「三階段」推進:
第一階段(3–6個月):共同定義與最小資料集(MDS)
完成分類口徑與對照表
設計最小必要欄位與填報指南
建立去識別規格與權限模型
選定2–3個試點縣市與1–2個民間合作網絡
第二階段(6–12個月):試點運作與稽核校正
導入事件指紋去重、時間窗與延遲標注
建立跨來源對帳(行政×服務×匿名調查)
做第一次不確定性報告:偏誤來源、缺漏估計、改善計畫
進行資安與倫理外部稽核
第三階段(12–24個月):擴張與制度化
擴大到更多縣市與更多服務端點
建立年度版本更新與公開方法報告
把指標納入政策評估與預算分配,但避免把它變成新的KPI壓迫
持續訓練前線:填報不是工作負擔,而是保護與改善的工具
當這套流程穩定後,定點茶相關統計才有可能從「互相不信任的數字戰」變成「可用、可辯、可修正的公共證據」。而一旦證據可信,政策才有機會從短期反應走向長期治理:把資源投到真正降低風險、提升可近性、減少傷害的地方,而不是投到最容易被計數、卻最不一定有效的地方。
延伸閱讀

