[IND] 5 分鐘閱讀OraCore 編輯部

GitHub 預設拿 Copilot 資料訓練 AI

GitHub 將在 4 月 24 日起,預設把 Copilot Free、Pro、Pro+ 的互動資料拿去訓練 AI。若你不想被收進資料管線,得手動關閉設定。

分享 LinkedIn
GitHub 預設拿 Copilot 資料訓練 AI

GitHub 要改 Copilot 的資料規則了。4 月 24 日起,Copilot FreeProPro+ 的互動資料,預設會拿去訓練 AI。你沒去關設定,就等於默許。

這次不是小修小補。GitHub 說,會用到提示詞、輸出內容、程式碼片段,還有相關上下文。對開發者來說,這句話很直接:你跟 Copilot 講過什麼,它可能就進了訓練管線。

如果你用的是企業方案,情況不同。Copilot Business、Enterprise,還有教育方案都不在這次範圍內。已經關掉先前產品改進資料蒐集的人,也會保留原本選擇。

4 月 24 日到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

講白了,GitHub 把原本比較窄的資料蒐集,改成更直接的預設值。以前你可能還會以為,AI 工具只是幫你補 code。現在它會把你和它的互動,當成模型訓練素材。

這件事會讓很多人不爽,不是沒原因。Copilot 早就不是邊邊角角的功能。它是現在最常見的 AI 寫碼工具之一。當一個工具每天都在 IDE 裡出現,大家很容易忘了,它背後還有資料流。

從產品角度看,這步很合理。Microsoft 旗下的 GitHub,本來就有動機把產品使用資料拿來調模型。問題在於,合理不等於舒服。開發者最怕的,就是自己以為是工作內容的東西,最後變成訓練樣本。

  • 生效時間:2026 年 4 月 24 日
  • 受影響方案:Free、Pro、Pro+
  • 不受影響方案:Business、Enterprise、教育方案
  • 可用資料:提示詞、輸出、程式碼片段、上下文
  • 預設行為:不關設定就會納入訓練

為什麼開發者反彈這麼大

我覺得,這次最刺眼的不是技術,而是預設值。很多人不是不能接受資料被拿去改善產品,而是不能接受「先收再說」。因為一旦預設打開,大多數人根本不會去翻隱私設定。

開發者會特別敏感,還有一個原因。寫 code 的時候,常常會貼出專案結構、函式名稱、錯誤訊息,甚至是內部邏輯。這些東西對一般人只是字串,對公司來說可能是機密資產。

GitHub 的說法也不難懂。它想提升準確度、安全性,還有 bug 偵測。這些目標都很合理。只是,產品想進步,不代表使用者就該默默交出日常工作資料。

“If you are not paying for it, you’re not the customer; you’re the product being sold.” — Andrew Lewis

這句話被講爛了,但還是有用。因為它講中了平台經濟的老問題。你以為自己在用工具,平台卻在看你的行為資料。AI 時代只是把這件事做得更快,也更隱蔽。

而且這次的爭議,還碰到開源社群的敏感神經。很多人本來就對 AI 讀 code 有意見。現在又多了一層:不只是讀,還可能拿去訓練。這種感受,真的很難用一段產品說明就打發掉。

跟其他 AI 寫碼工具比起來

GitHub 不是唯一會碰資料的 AI 工具,但它的預設值很有代表性。很多產品會把個人方案和企業方案切開。企業資料通常有更嚴格的隔離。GitHub 這次對個人方案的做法,明顯更積極。

差別其實很現實。你在聊天機器人裡丟一句晚餐建議,風險不大。你在 Copilot 裡貼一段私有 repo 的函式,甚至有安全漏洞線索,那就完全不同了。對寫程式的人來說,資料敏感度高很多。

所以,比較工具時,不能只看誰寫 code 比較順。你還得看,誰的預設值比較乾淨。說真的,這點常常比模型分數更重要。因為分數高,不代表你可以放心把專案內容丟進去。

  • ChatGPT 有資料控制選項,但個人版和企業版通常分開處理
  • Claude Code 針對寫碼流程設計,方案不同,資料政策也不同
  • Codeium 也做 AI 寫碼,但個人和商用條款不一樣
  • Amazon Q Developer 同樣有個人與企業控制的分界

如果你是團隊採購,這題已經不只是「誰比較會補 code」。還要問:誰會把提示詞拿去訓練,誰不會。這個問題很現實,也很煩,但它會直接影響你最後選哪個工具。

開發者現在該做什麼

最直接的動作,就是去檢查設定。你如果不想讓 Copilot 的互動資料被用來訓練 AI,就要在 4 月 24 日前手動關掉。GitHub 說,先前已經關掉更廣泛資料蒐集的人,會維持原設定。

如果你還沒動過,就別拖。尤其是你有在處理客戶專案、閉源程式、內部系統,或安全敏感資料。這種情況下,任何自動上傳到訓練流程的東西,都不是小事。

更大的問題是,這種做法很可能會被更多軟體公司學走。今天是 Copilot,明天可能就是別的 AI 工具。只要使用者沒有大規模反彈,廠商就會覺得這套路可行。

我建議你這週就做一件事:把團隊正在用的 AI 寫碼工具列出來,逐一看資料設定。別等到預設值變成習慣,才發現自己早就把資料送進去了。

這件事背後的產業脈絡

AI 工具現在最缺的,不是 demo,而是資料。模型越大,越需要真實互動來修正結果。這也是為什麼很多產品都想把使用者行為納進訓練流程。資料越多,調整空間越大。

但寫碼工具跟一般聊天工具不一樣。它碰到的是原始碼、架構、錯誤訊息,還有開發流程。這些東西一旦進了訓練資料,後續要抽離就很麻煩。對企業來說,這不是單純的隱私問題,而是治理問題。

所以現在的重點,不只是 Copilot 做了什麼,而是整個產業怎麼定義「預設蒐集」。如果大家都接受這套邏輯,之後你會看到更多 AI 服務把資料控制藏在設定頁深處。這種事,真的很像軟體版的默認同意。

接下來會怎麼走

我猜,這次 GitHub 不會立刻改回去。因為對它來說,資料就是模型品質的一部分。比較可能的發展,是它把說明寫得更清楚,然後讓使用者自己決定要不要留在預設值。

對開發者來說,最實際的問題只有一個:你願不願意讓你的提示詞,成為下一輪模型訓練的一部分。答案如果是否定的,就現在去關設定。真的不用等。

如果你在團隊裡管工具選型,這週就開一次 15 分鐘的檢查會。把 GitHub、OpenAI、Anthropic、Codeium、Amazon Q 的資料政策一起看。別只看功能表,資料預設值才是重點。