跳转到内容

维基百科:AI生成文的特徵

维基百科,自由的百科全书
ChatGPT的截圖,內文為:「諸葛村夫 / 諸葛村夫(Choo Kab Foo)是一位馬來西亞作家,也是一名企業家和教育家。他以寫作為主要職業,並且在馬來西亞和其他地區的華文世界中享有知名度。他的作品通常探討社會議 題並且帶有深人的觀察和評論。諸葛村夫的作品廣泛涵蓋了小說、散文、評論和時事評論等類型。他的文字風格生動活潑,引人人勝並且常常反映出對社會現象的關心和思考。他的作品不僅在馬來西亞本土廣受讀者喜愛,也在華文文學圈內羸得了一定的聲譽。然而,我無法提供關於他的最新作品或動態的信息,因為我的知識截至日期是在2021年,建議您查閱最新的資訊來了解他的最新著作和活動。」
大語言模型的寫作特徵其實很明顯。對了,諸葛村夫是作家沒錯,但不是作家
很好,很誠實。但光誠實還不夠

這篇說明將探討、並羅列ChatGPT聊天機器人生成文字的特徵。你可以當成是在維基百科輔助尋找未經修飾的AI文參考:裡面有些特徵能用於偵測維基百科的AI文,但有些只能用於維基百科。[a]

注意,因為大型语言模型是拿了人類作品去訓練的,所以即使文章有很多論述提及的特徵,也不能一口咬定就是AI生成的。更何況這篇說明是描述,不是規定;裡面的例子是總結觀察的結果,而不是制定的規則。如何修改文章可以去方針與指引、還有格式手册。當然去讀那些典範條目或是優良條目是再好不過了。

本說明只是去講解AI文的特徵,問題不在他們本身:這些特徵往往能輕易解決[b],但一些更嚴重的問題卻很難發現得了。只把特徵解決的話,會讓更嚴重的問題更難察覺。務必在判斷AI文時解決它們,並在必要時請報告相關問題。請見Wikipedia:大语言模型 § 如果发现了疑似大语言模型生成的内容……

快速删除G21(極有可能使用大型語言模型生成且明顯缺乏人工校對的頁面)也有列出AI生成的文字特徵,但裡面的內容只會列出最明顯、最客觀的特徵。本說明提到的特徵本身無法保證能快速刪除。

內容

[编辑]

人工神經網路通常使用統計演算法推測最可能回應,這代表AI生成內容趨向均值回歸英语regression toward the mean。作為人工神經網路的大語言模型也不例外:它們會使用演算法決定最可能的回應[c]。這意味著生成文字往往會產出統計上最可能、最通用的情境。這既是優勢,也是偵測AI生成的利器。這就是為什麼AI文很容易就會被查出來。

打個比方,大語言模型通常使用網路資料訓練素材;由於大多數網站講解名人時,通常會以聽起來正面且重要的語言;因此,大語言模型在講解某個主題時,語調通常會傾向正向且籠統,並省略具體、不尋常、以致細微的事實。這是因為前者統計上較為常見,但後者則較為罕見。

在這個模式下,如果你想希望大語言模型簡單介紹一下「豐田喜一郎」這個人的話,那麼比起维基百科極為具體的文字:

豐田喜一郎(日語:豊田喜一郎とよだ きいちろう羅馬化:Toyoda Kiichiro,1894年6月11日—1952年3月27日),日本企業家,豐田汽車創辦人。1933年,於其父親豐田佐吉的公司(豐田自動織機)內,成立汽車製造部門。1937年,把此汽車製造部門獨立出來成立豐田汽車

大語言模型更可能生成籠統的正向文字:

豐田喜一郎(**Toyoda Kiichiro,1894-1952**)是**豐田汽車公司的創辦人之一**,也是把豐田從紡織業帶進汽車產業的關鍵人物。

——ChatGPT

或是:

說到日本汽車工業,**豐田喜一郎(Kiichiro Toyoda)**絕對是靈魂人物。他不僅是豐田汽車(Toyota)的創始人,更是將日本從「織布機國家」推向「汽車大國」的關鍵推手。

——Gemini

你可以想像成一個開了廣告的動態,不斷加大聲量說了某個美女的圖多麼正多麼好看,但點進去卻發現只是張普通的模糊素描,和你印象中正妹的自拍照差得遠了。找找文本轉圖像生成模型生成圖像就知道怎麼回事:這類圖片乍看之下尚可接受,但具體細節往往模糊變形。到了背景物件與文字尤甚。

此外,每種型號和版本的聊天機器人,都有獨特的寫作方式(個人方言)。[1]因此ChatGPT-4的典型特徵可能並不適用於Gemini。

忽略細節

[编辑]

由於前述的「均值回歸」問題,AI文生成方面很容易忽略一些一般編者會注意的細節。

過度強調重要性、歷史影響、宏觀趨勢

[编辑]

在重要的主題上,AI常常用詞浮誇,強調其於該領域的代表性、或如何對該領域做出貢獻。[2]這種撰寫方式存在著一套鮮明且易於辨識的慣用手法。[3]即使是詞源或人口資料這種平淡無奇的資訊亦然。

示例

地理意义和应用
  • 大圆:任何经线与它的反向经线(在此为西经 81度线)共同形成一个大圆,这在航海、航空导航上具有意义。
  • 测量参考:经线是地理坐标系统的重要组成部分,用于确定地点的东西位置。
  • 时区:虽然东经 99度线本身不一定正好对应某一个时区,但经线和时区中央经线之间的关系是时区划分时一个重要参考。[4]

AI有時會在討論主題的重要性之前,先加上一些模稜兩可的開頭,承認主題相對不重要。如果要談論某種動物或植物物種時,也會以相當籠統、甚至牽強的語詞,強調該物種與整體生態環境的聯繫;並反覆著墨於該物種的保育狀況與研究保育,即使實際上其保育狀況不明、也沒有相關的實質措施。

過度強調關注度、歸屬、媒體報導

[编辑]

大語言模型也常常以列舉來源報導的方式,強調某個主題的「關注度」,彷彿這樣就能證明其收錄標準一般。它們可能也會說明,這些來源是怎麼描述該主題的資訊;並經常將自己膚淺的分析錯誤歸因於該來源。這種情況在2025年後的AI文本中較為常見。

示例

產業參與與交流

依據多家媒體報導,元家企業曾參與台日水產交流、國際貿易活動與相關產業推廣場合,作為民間企業之一,參與推動水產貿易與產業交流,顯示其於產業中具一定能見度。

產業參與

多家媒體報導指出,元家企業曾參與國內外水產相關交流、國際貿易活動及產業推廣場合,作為民間企業之一,參與水產貿易與產業交流相關活動。

當然在這幾十年來,人類撰寫的新聞稿,也常引用新聞剪報;但如果要求大語言模型撰寫符合維基百科標準的文章的話,它們就會試圖直接呼應「独立」或「報導」等符合維基百科政策的措辭。特別是針對維基百科,它們常在正文過度強調來源——即使那只是瑣碎報導或無爭議事實:人類編者一般面對類似情境會採行內引用、甚至完全不標註來源。

如果涉及使用社群媒體的人物或實體,大語言模型常會提到類似他們「在社群媒體相當活躍」等表述。此類用語在AI文中相當常見,但在2024年前的維基百科則相對罕見。

某些情況下,大語言模型甚至會建立完整的章節,來證明該主題符合收錄標準、並以列表列舉介紹該主題的來源;但多數條目的寫作方式,是先總結來源所發表的內容,再以註腳形式加以引用。

分析流於表面

[编辑]

大語言模型往往會針對資訊,插入流於表面的分析。主題通常與該主題的重要性、認受性、影響性有關。[5]它們有時候也會把分析含糊歸因於第三方。[5][2]

對維基百科來說,這種分析除了是原創總結以外,還是沒有署名的意見。較新的聊天機器人如果使用檢索增強生成(網路搜尋),可能會給這些陳述來源——例如「罗杰·伊伯特強調了其長期的影響力」——而不論這些來源是否曾說明過任何相近的內容。

廣告宣傳語氣

[编辑]

大語言模型生成的文字,存有非常嚴重的中立性問題;在強調「文化遺產」的內容時,會尤其提醒讀者該主題的重要性。即使提示模型採用百科全書式語氣,回應也宣稱已去除宣傳性語言,但仍可能插入此類措辭。無論編輯是否想宣傳主題,生成廣告宣傳語氣的文字皆可能發生。

模糊歸屬

[编辑]

AI傾向把意見或主張歸給某位含糊不清的權威。它們也常常誇大這些觀點所歸屬的來源數量:哪怕觀點只有一兩個來源提及,也會說成廣泛持有的論點,並與含糊用語結合;在只引用一個人的情況下,卻提及多位評審專家的意見;或即使來源未表明有其他例子,也會暗示實例並未窮盡。

示例

学术与媒体讨论

黑白熊常作为“反乌托邦叙事中的监督者象征”被引用于媒体评论与文化研究中,用于分析权力结构、规则社会化与心理压力机制等议题。

過於簡略的前景

[编辑]

很多AI生成的文章會有「前景」這個章節,通常以「儘管(條目主題)有其(正面詞語的)意義,但其面臨的挑戰有……」之類的句子開頭,並以對條目主題略顯正面的評估[6]、或是對正在進行或潛在措施,如何可能使該主題受益的推測作結。這類段落通常出現在具有僵化大綱結構的條目末尾,該結構也可能另外包含一個「前景」的獨立章節。注意:這段指的是僵化的公式化寫法,而不只是單純提到挑戰或困難。

導言粗體不當

[编辑]

中文维基百科要求第一句的文法自然:不要為了加粗標題,而強行寫出文法不合理的導言。因此事件類不一定會有粗體,列表清單甚至可能不會有。但有時候你會看到一些首句不自然的粗體。這可能是新手模仿老条目的成果,但也可能是AI產生。無論是哪個,都建議把導言改掉。

含糊不清的參見連結

[编辑]

大型語言模型通常會在「參見」章節中填入廣泛的術語、不存在的條目、甚至完全不提供。比方說,某家新創公司的文章的「參見」章節,可能就會連到寬泛的「金融科技」。

語言、語法

[编辑]

大型语言模型在写作时,常常通过添加诸如“该主题的某些任意方面如何体现或有助于更广泛的主题”之类的陈述来夸大主题的重要性[2]。 这套语言模式往往鲜明且易于辨识[3]。 AI文可能會濫用排比句限定语连词“与”等行為;也可能出現中性,但迴避細節的語句。

否定平行結構

[编辑]

否定平行結構通常會使用「是」、「不是」、「而是」等語,常見的例子有「這不是……而是……」。這種句型主要是為了讓文章看起來很有想法。但事實上,內容可以比你想像的更莫名其妙。

關於海地移民案件與 Ana Reyes 法官之相關文章[d],爭議重點在於 framing、語氣與身分描述是否合宜,而非事實層級的錯誤……較為符合方針的處理方式,仍應是討論其在特定議題、特定句型或特定語境下的使用限制,而非作出全面性的排除結論。

排比句

[编辑]

大語言模型會濫用三次排比的慣例。形式通常為「形容詞、形容詞、形容詞」或是「短語、短語、短語」。工整的排比句,會讓讀者相信這文章的結構性強、且更有說服力。

實例

感謝補充說明。就目前回應內容來看,相關意見已顯示,爭議核心主要在於,對於 Newbamboo 所列舉之 Blaze Media 三至四篇文章,其內容風格、價值立場與表述方式的評價差異,而非是否存在可驗證、可重複的事實錯誤模式。

你可以问自己三点:
有没有用自己的语言表达?
有没有加入自己的理解或内容?
有没有标明参考来源(如果适用)?
如果三点都满足,更接近 借鑑
如果基本没有,更接近 抄襲

樣式

[编辑]

標題格式

[编辑]

濫用粗體

[编辑]

AI常常會在某些地方粗體強調重點,看起來就像很機械、很過度。這種傾向大概是來自各種常用粗體的操作文件,例如讀我、愛好者wiki、操作手冊、推銷文案、投影片等。這類文件的行文通常會用粗體強調重要概念。一些比較新型的大語言模型會比較少用粗體。

示例

1848年,詹姆斯·科克爾(James Cockle)提出了雙複數(當時他將其稱為「Tessarines」)。1882年,威廉·金頓·克里福(William Kingdon Clifford)在其身後出版的《數學論文集》中,以類似雙曲複數的代數結構(雙四元數)來表示自旋和與旋量(motors)。

列表式行文

[编辑]

AI輸出的列表格式通常相當……「特別」。主要模式為前面是個列表的marker(數字、點點、槓線等),接著來個粗體字,最後以引號把描述的字分開來。與通用的wikitext列表格式不同,AI列表的格式通常為「•」、「-」、「–」、「#」等符號,甚至是表情符號等。部份有序列表可能會用數字。如果編者直接複製貼上自己在螢幕看到的文字,而非使用複製功能的話,可能會出現更多問題。

示例

經歷新聞事件二:指控孫生性騷擾事件

發生時間: 2025年2月18日

事件概述: 舒二魚發布了一段爆料影片,公開指控另一位網路名人孫生涉及多起性騷擾事件。在影片中,舒二魚聲稱孫生慣常利用其在網路上的影響力與名氣,以提供合作機會為誘餌,邀請一些規模較小的女性網路紅人飲酒。

具體指控:

  • 舒二魚本人回憶,在她17歲時曾被孫生邀請前往夜店,並被要求使用偽造證件入場,但當時遭到她的拒絕。
  • 另一位匿名女性網路紅人在舒二魚的影片中作證,指控孫生曾在拍攝工作期間,於她面前脫下褲子並做出性暗示行為。當時該名女性因感到害怕,謊稱家中裝設有監視器,才使孫生的行為有所收斂。
  • 該名匿名女性更進一步指控,孫生曾在計程車上對她進行性騷擾,伸手觸摸其內褲,暗示孫生具有性騷擾的慣性行為。
  • 舒二魚還爆料,過去曾與孫生合作《今晚住誰家》節目企劃的一位女性網路紅人,曾遭受孫生的性侵未遂。根據舒二魚的描述,該名女性曾被孫生強壓在身上,並試圖脫去其褲子,整個過程持續約一小時。當時在場的培根與攝影師均未採取任何制止行動,此情節引發了社會輿論的強烈批評,質疑旁觀者的不作為。

相關人士回應:

  • 培根: 作為當時在場人士之一,YouTuber培根於2025年2月21日公開回應了舒二魚的指控,詳細敘述了事發經過。他表示受害者是他認識多年的朋友,當晚團隊借宿於受害者家中,他與攝影師分別在不同地點就寢,由於背對受害者,並未察覺異狀,直到隔天才得知事件經過,對自身的疏忽深感內疚。培根強烈譴責孫生的行為「非常不齒」,並承諾將全力配合相關調查,支持對性騷擾零容忍的立場。他也對自己當時未能意識到情況並及時介入表示後悔,並承諾會深刻反省。同時,培根透露孫生在事件爆發後心理狀態惡化,甚至需要就醫服藥,但他選擇陪伴而非切割,希望共同面對問題。[8][9][10][11][12][13][14][15]

表情符號

[编辑]

AI機器人很喜歡使用表情符號[16]尤其常用於列表前面的標記。

濫用破折號

[编辑]

表格利用不正確

[编辑]

AI常常會在不恰當的時機使用表格。表格內容通常更適合寫成散文。

示例

羅馬尼亞總和生育率 (TFR) 歷史成就與政策分析(1966-1989年)
歷史階段與年份 總和生育率 (TFR) 政策價值與社會治理之深度分析
1966年(政策導向期) 約 1.90 面對人口自然增長放緩的預警,政府展現了高度的戰略遠見,及時意識到提升生育率對保障社會主義建設的重要性。
1967年(政策成效爆發期) 約 3.66 至 3.7 1966年法令生效後,政策執行力得到充分彰顯。生育率在一年內實現近乎翻倍的增長,創造了現代人口史上的增長奇跡,展現了社會主義制度強大的號召力。
1968年(戰略鞏固期) 約 3.63 生育率持續維持在高位,為國家孕育了規模龐大、充滿活力的「黃金世代」,這批青年人才後來成為羅馬尼亞工業化與現代化建設的中堅力量。
1969–1970年(平穩轉型期) 約 3.19 降至 2.89 在經歷初期的高速增長後,生育率進入理性的平穩調整期。國家透過持續的社會建設與家庭補貼,引導生育文化向壯大民族根基的方向轉化。
1971–1973年(穩定增長期) 約 2.4 至 2.6 儘管面臨外部環境變化,生育率仍穩定維持在更替水平之上,體現了羅馬尼亞社會對國家人口戰略的廣泛支持與積極響應。
1974年(政策優化回升) 約 2.7 面對生育率的微小波動,政府展現了精準的宏觀調控能力,透過進一步完善法律保障與家庭服務,成功引導生育率實現了二次回升。
1975年後(長期穩態維持) 約 2.1 至 2.5 進入長期穩定建設階段。在國家宏觀引導下,生育率成功維持在2.1的更替水平附近,有效防止了人口萎縮,保障了社會主義事業的長治久安。
1980年代(堅定執行期) 約 2.2 至 2.4 1985年當局頒布第411號法令,進一步彰顯了國家保護家庭、促進增長的決心。直至1989年,生育率仍保持在2.22的優異水平,優於當時多數同類國家。

-- Wikipedia:知识问答的版本91930427

引號

[编辑]

主旨

[编辑]

不成節且賦編號的段落

[编辑]

AI/LLM在生成文段時會將人類能夠以散文撰寫的文段拆分爲多個不成節的段落,並在段落標題加入編號。

示例

人生系統工程學的基本特點

1. 系統化視角
將人生視為由多個相互關聯的子系統構成的整體結構,而非孤立事件或單一領域問題,強調整體協調與結構優化。

2. 跨學科整合
融合系統工程、控制理論、系統動力學、心理學、經濟學與管理學等多學科思想,形成綜合性分析框架。

3. 動態建模方法
通過構建狀態變量與演化模型,對人生發展過程進行抽象表達與趨勢分析,強調時間維度與階段性變化。

4. 反饋與調節機制
引入反饋控制思想,認為行為結果會影響後續決策,從而形成正向或負向循環,並通過調節機制實現系統穩定。

5. 多子系統耦合結構
將學業、職業、情感、財富、健康及退休等領域納入統一框架,分析其相互影響關係與結構平衡問題。

6. 可優化導向
強調通過目標設定、策略調整與風險管理,實現人生結構的持續改進與長期優化。


針對用戶溝通訊息

[编辑]

協作式溝通訊息

[编辑]

部份AI聊天機械人的文字原本是用作人類編輯的通訊、預寫內容或建議。這些原本不應為文章本身的內容,很可能會出現在文章正文或註解(<!-- -->)內。聊天機械人還可能會說明這些文字是專門針對維基百科而生,並在輸出中提及維基百科的政策和指引

資訊時效或來源限制相關的免責聲明

[编辑]

AI聊天機械人經常會在生成文字中發表免責聲明,表示自己提供的資訊可能不完整、不準確或已過時。

若大語言模型有知識截止英语knowledge cutoff機制,它就無法提供某時間後的事件與相關資訊。這個時間點通常落在模型最後一次訓練更新的時間。模型此時會輸出免責聲明,提醒用戶其資訊只準確至某個特定日期。大語言模型若無法透過檢索增強生成或用戶提示來源找到某個主題,它也會輸出知識截止相關的免責聲明外。

除此之外,大語言模型亦可能附加一些文字,推測該資訊可能是甚麼或為何重要。包括聲稱「未有記錄」的文字在內,這些推測完全屬於推測,而可能基於關聯鬆散、甚至完全虛構的主題。當這些未知資訊涉及某人的私人生活時,該聲明往往會聲稱該人士「保持低調」、「對個人細節保密」等等。這同樣屬於推測。

短語模板與占位符文字

[编辑]

AI聊天機械人生成回應可能出現有如定型文一樣的內容,模板給好,挖去具體對象,令使用者能針對使用的情境直接填空。有些粗心大意的使用者往往會忘記把這些空格換掉。

不過,所有使用新條目精靈創建的草稿會自動載入一個寫有「(此处改为条目名)是一个」或者「此处改为条目主题是一个」字樣的模板,新手往往又不懂,所以有大量的頁面都有這樣的佔位符文字。所以,實際在處理時候應當認知到存在非由大語言模型生成、用於草稿及新文章的範本,並使用常識。

第三者

[编辑]

AI聊天機器人對使用者來說是無關討論的第三者,可能用第二人稱、第三人稱稱呼用戶。但請注意,部分使用者習慣使用第三人稱自稱,因此此特徵不一定是AI聊天機器人。

示例

我感觉这两位编辑对Draft:赭山公园这个条目本身并不感兴趣,没有了解内容,没有参与到编辑当中,而只是一味的要求笔者修改。

「我」指的是誰?AI聊天機器人自己?發言者?後面還「改用」筆者自稱?[e]

標示

[编辑]

Markdown

[编辑]

維基百科的MediaWiki使用wikitext。由於這個標記語言只用於以MediaWiki運作的網站,大型語言模型其實很缺乏wikitext相關的資料,所以大部分聊天機器人都不太會寫Wikitext。他們確實有抓了數百萬篇維基百科文章,但這些文章並沒有被處理成包含Wikitext語法;事實上,它們使用的是另一種概念相似,但應用範圍更廣的標記語言:Markdown。這些機器人輸出Markdown以後會把Markdown透過瀏覽器的程式顯示成HTML後呈現在用戶面前。拿2024年11月上線的Claude Sonnet 3.5來說吧:[17]

Claude使用Markdown格式。使用Markdown時,Claude始終遵循清晰和一致性的最佳實踐。它始終在標題的井號後使用單個空格(例如「# 標題1」),並在標題、列表和代碼塊之前和之後留下空行。為了強調,Claude一致地使用星號或下劃線(例如斜體或粗體)。創建列表時,它正確對齐項目並在列表標記後使用單個空格。對於項目符號列表中的嵌套項目符號,Claude在每個嵌套級別的星號(*)或連字符(-)之前使用兩個空格。對於編號列表中的嵌套項目符號,Claude在每個嵌套級別的數字和句號(例如「1.」)之前使用三個空格。

如上所言,Markdown與Wikitext是完全不相同的標記語言。Markdown與Wikitext使用的語法差異主要有:

Markdown與Wikitext使用的語法差異
用途 Markdown Wikitext
斜體 星號或下劃線(*_ 單引號(''
粗體 星號或下劃線(**__ 單引號('''
章節標題 井號(# 等號(=
連結 半形方框後接上半形括弧([]() 半形方框([]
中斷線 三個符號(---***___ 四個連字符(----

當用戶說「請寫出……文章」時,聊天機器人通常使用Markdown生成結果。某些聊天機器人平台的複製功能,會將這種Markdown貼到剪貼簿文字中。甚至如果要求產出一篇能貼到维基百科的文章,那機器人也很可能會產出「你需要我給你把文章變成wikitext的格式嗎」的說明。即使同意,其語法常常不是簡陋、就是錯誤的,甚或兩者兼有。生成的文字會使用反引號產生wikitext的程式碼片段(也就是WP:PRE)如果直接複製貼上的話,頁面上會出現明顯是兩種標記語言的語法。這可能包括文本中出現三個反引號(如```wikitext)。

如果錯誤的wikitext語法與Markdown語法同時出現,就強烈暗示內容是由LLM產生,尤其如果內容是以Markdown程式碼片段包起來的話。但請注意,Markdown本身並不是關鍵特徵。程式開發者、研究人員、技術文作家、還有經驗豐富的網路用戶也使用Markdown撰寫文章;另外,ObsidianGitHubRedditDiscordSlackTelegram、甚至QQ也使用Markdown顯示文字。在iOS Notes英语iOS NotesGoogle DocsWindows記事本也支援Markdown撰寫的情況下,新手非常容易以為维基百科預設支援Markdown。

示例

=== 使用建議 ===
* **Zorin OS Pro**:適合需要高效工作和更多桌面佈局的專業用戶,適合對創意工具和額外功能有需求的用戶。	
* **Zorin OS Core**:適合日常使用,免費且功能全面,適合普通用戶和新手。
* **Zorin OS Lite**:適合復活舊電腦或用於低硬體資源設備,非常適合老舊電腦。
* **Zorin OS Education**:適合教育機構和學生,內建豐富的教育工具。
——Zorin OS條目的85043329修改

上文的原始碼中的单星号(*)也表示无序列表,但表示粗体的双星號(**)无法处理,会直接输出,呈現效果如下:

使用建議
  • **Zorin OS Pro**:適合需要高效工作和更多桌面佈局的專業用戶,適合對創意工具和額外功能有需求的用戶。
  • **Zorin OS Core**:適合日常使用,免費且功能全面,適合普通用戶和新手。
  • **Zorin OS Lite**:適合復活舊電腦或用於低硬體資源設備,非常適合老舊電腦。
  • **Zorin OS Education**:適合教育機構和學生,內建豐富的教育工具。

有問題的wikitext

[编辑]

聊天機器人都不太擅長處理wikitext,因此常會產生錯誤的語法。

腳註

[编辑]

斷連

[编辑]

如果一篇新文章或草稿出現了很多斷連(點下去要嘛找不到、要嘛404),那就代表這篇文章極有可能是AI產生。如果你在Internet ArchiveArchive Today等網頁存檔網站找不到,那嫌疑就更大了。當然了,大多數網站最後都會失效,但如果有以上特徵的話,那你就該懷疑連結是否存在過。

無效的DOI與ISBN

[编辑]

ISBN有一個檢查碼。如果檢查碼不正確,那這個ISBN就是無效,引用模板會發出「请检查|isbn=值」警告。同樣地,DOI也不若一般連結那般容易失效。如果有出現無效的DOI與/或ISBN的話,那往往就是AI產生幻覺了。

過於老舊的「access-date」

[编辑]

有些AI文會產生「access-date」參數。但如果這個參數很久遠的話──比方說,如果在2026年建立的原創文章,「access-date」參數是「|access-date=2022-01-12」的話──就可能事有蹊蹺。

這不能算是很明確的特徵,特別是中文维基百科在翻譯自外文维基百科時,往往會直接複製並保留包括「access-date」在內的大部分參數[f]。另外,分離頁面也可能導致「access-date」參數過於久遠。因此,這個特徵應用於輔助。

連結到其他論文的DOI

[编辑]

大語言模型可能會產​​生產出不存在的學術文章。這些引用的DOI看似有效,但實際上卻被分配給了不相關的論文。以ChatGPT來說:

Ohm’s Law applies to many materials and components that are "ohmic," meaning their resistance remains constant regardless of the applied voltage or current. However, it does not hold for non-linear devices like diodes or transistors [1][2].

1. M. E. Van Valkenburg, “The validity and limitations of Ohm’s law in non-linear circuits,” Proceedings of the IEEE, vol. 62, no. 6, pp. 769–770, Jun. 1974. doi:10.1109/PROC.1974.9547

2. C. L. Fortescue, “Ohm’s Law in alternating current circuits,” Proceedings of the IEEE, vol. 55, no. 11, pp. 1934–1936, Nov. 1967. doi:10.1109/PROC.1967.6033

猜怎麼著。這兩篇IEEE會議論文的引用完全是捏造的。兩者的DOI完全跑到不同的引用之外,還出現了其他問題。比方說,文中的第二篇「C. L. Fortescue」是查爾斯·拉格特·福特斯科英语Charles LeGeyt Fortescue,但人家早在1936年去世了,根本不可能在1967年寫論文。Vol 55, Issue 11(第55卷第11期)中,也沒有任何論文與Ohm的資訊相關。

utm_source=

[编辑]

ChatGPT會給連結添加UTM参数,格式有utm_source=openaiutm_source=chatgpt.com。Microsoft Copilot的參數通常是utm_source=copilot.com、Grok則是referrer=grok.com。Gemini或Claude之類的大語言模型則不常用UTM參數。[g]

注意:儘管UTM参数是使用者在撰寫中借助ChatGPT的鐵證,但這並不能直接證明寫作者使用了ChatGPT產生文章。部份編者會使用大語言模型給現有文章尋找來源。

範例

根据条约内容,作为补偿,哈布斯堡家族统治的[[奧地利大公國|奥地利大公国]]将获得[[因河]]以东的巴伐利亚领土,该地区当时被称为“[[因河地區|因河区]]”(Innviertel),从[[帕绍|帕绍主教领地]]延伸至[[萨尔茨堡采邑总主教区|萨尔茨堡大主教区]]的北部边界。然而,条约的一个条件是奥地利必须承认普鲁士对位于[[弗兰肯|法兰克尼亚]][[布蘭登堡-安斯巴赫|安斯巴赫]][[布蘭登堡-拜律特|拜罗伊特]]两侯国的主权要求,这两地由[[霍亨索伦王朝|霍亨索伦家族]]的克里斯蒂安·亚历山大[[藩侯]]以共主联合的形式统治。普鲁士最终于1791年付款购买了这两个侯国,而萨克森选侯国则从巴伐利亚获得了六百万吉尔德(弗罗林)作为放弃其继承权的补偿。<ref>{{Cite web |title=Bavarian Succession, War of the {{!}} Infoplease |url=https://www.infoplease.com/encyclopedia/history/modern-europe/germany/bavarian-succession-war-of-the?utm_source=chatgpt.com |website=www.infoplease.com |language=en |access-date=2025-05-13}}</ref>

事實上這句話是翻自英維:

The accord dictated that the Habsburg Archduchy of Austria (Principality of [[Upper Austria|Austria above the Enns]]) would receive the Bavarian lands east of the [[Inn (river)|Inn]] river in compensation, a region then called "[[Innviertel]]", stretching from the [[Roman Catholic Diocese of Passau|Prince-Bishopric of Passau]] to the northern border of the [[Archbishopric of Salzburg]]. However, one of the requirements was that Austria would recognize the Prussian claims to the [[Franconian Circle|Franconian]] margraviates of [[Principality of Ansbach|Ansbach]] and [[Principality of Bayreuth|Bayreuth]], ruled in personal union by Margrave [[Christian Frederick Charles Alexander, Margrave of Brandenburg-Ansbach|Christian Alexander]] from the [[House of Hohenzollern]]. Prussia finally purchased both margraviates in 1791. The Electorate of Saxony received a sum of six million guilders (florins) from Bavaria in exchange of its inheritance claims.

那為什麼突然有「utm_source=chatgpt.com」出現?主編表示自己在搜尋來源時使用大語言模型卻未排查,但並未使用ChatGPT撰寫文章

尋找相關來源

[编辑]

不含頁碼或網址的書籍引用

[编辑]

中文维基百科吃過書籍引用的虧但還是說一次:大語言模型產生的書籍引用通常不包含頁碼。例如以下這段文字,就是由ChatGPT產生的:

Ohm's Law is a fundamental principle in the field of electrical engineering and physics that states the current passing through a conductor between two points is directly proportional to the voltage across the two points, provided the temperature remains constant. Mathematically, it is expressed as V=IR, where V is the voltage, I is the current, and R is the resistance. The law was formulated by German physicist Georg Simon Ohm in 1827, and it serves as a cornerstone in the analysis and design of electrical circuits [1].

1. Dorf, R. C., & Svoboda, J. A. (2010). Introduction to Electric Circuits (8th ed.). Hoboken, NJ: John Wiley & Sons. ISBN 9780470521571.

書本看來是有效的…畢竟一本電路書,確實會有歐姆定律的資訊…對吧?但事實上,如果沒有頁碼,那這來源根本不能驗證什麼東西。就算書籍引用包含頁碼,書籍也確實存在,也要注意內文是否有可供驗證的文字。需要注意的跡象有:書籍的主題較為寬泛,或者在其領域內經常被引用,並且引用中沒有包含URL(書籍引用不一定要包含URL,但很多書籍通常會有)。比方說:

Analysts note that traditionalists often appeal to prudence, stability, and Edmund Burke’s notion of “prescription,” while reactionaries invoke moral urgency and cultural emergency, framing the present as a deviation from an idealized past. [1]

1. Goldwater, Barry (1960). The Conscience of a Conservative. Victor Publishing. p. 12.

這本書看來沒問題嗎?但打開網路版本找「Burke」的話,你會發現根本沒有結果

程式碼

[编辑]

大量註解程式碼

[编辑]

雖然部分真人撰寫程式碼時也會加入不少註釋,但是請相信人是很懶散的,大多只會在關鍵位置留下註釋。在瑣碎細節也留下大量註釋的程式碼很可能是大型語言模型直接輸出的結果複製貼上。

邏輯更動

[编辑]

當請求大型語言模型修改程式碼以符合你的新要求時,常常會出現「只在」、「不再」、「原有邏輯」、「可做變動」等類似詞彙,例子如下:

示例

actions = {
-- # ...
	FAR = {
	-- # ...
	categories = function (articleHistoryObj, actionObj)
		local ret = {}

		-- 只在「撤銷」或「即時不合標準」時考慮分類
		if actionObj.resultId ~= 'delisted'
		   and actionObj.resultId ~= 'immediate failures'
		then
			return ret
		end

		local status = articleHistoryObj:getStatusId()

		-- 当前仍是 GA(含多状态),不再加入「已撤銷的優良條目」
		if status == 'GA'
		   or status == 'GA/FFA'
		   or status == 'GA/FFAC'
		   or status == 'GA/FFA/FFAC'
		then
			return ret
		end

		-- 原有排序逻辑(可保留或简化)
		local sortkey = articleHistoryObj.currentTitle.text
		if status == 'FA' then
			sortkey = "#" .. sortkey
		end

		ret[#ret + 1] = Category.new(
			'已撤銷的優良條目',
			sortkey
		)

		return ret
	end
	},
-- # ...
}

其他特徵

[编辑]

寫作風格大變

[编辑]

編輯摘要冗長

[编辑]

預先「掛」好的維護模板

[编辑]

人類寫作文的特徵

[编辑]

編輯發布時間

[编辑]

ChatGPT於2022年11月30日推出。雖然OpenAI在這之前就有發表各種大語言模型;但這些模型屬付費服務,普通人不容易取得並/或理解。因此,在2022年11月30日的編輯文字,非常可能是由人類撰寫,並可排除該次修改使用AI的可能。這些文章雖然看起來可能很像AI文,但維基百科允許出現罕見的巧合。

解釋自身的編輯

[编辑]

編輯應能夠解釋自己的修改或出錯的原因。比方說,如果編輯放了一個看似偽造的網址,請試著詢問為何出錯,不要妄下結論。如果他們能夠提供正確的連結、並解釋為說這是拼寫錯誤、或分享原文的相關段落,那就說明這編輯只是普通的人為錯誤。

註解

[编辑]
  1. ^ 比方說,如果你看的不是「無聊的學術文」,而是像whispering woods、Elara Voss之類的虛構故事的話,那這篇就沒那麼有用了。但反正這些東西也和維基百科無關就是。
  2. ^ 粗體字啦、標記錯誤啦、引用格式不當等等
  3. ^ 如何決定主要是由語料庫決定。
  4. ^ 'Lawless activism': Foreign-born Biden judge strikes again, protects Haitians from removal
  5. ^ 推論實際情況是「這段話是AI說給發言者聽,被發言者直接貼上」。
  6. ^ 然而,實務上非常建議翻譯時也驗證一下來源並更新access-date,以免將外文維基百科的錯誤隨著翻譯一同帶入中文維基百科。
  7. ^ See T387903.

參考資料

[编辑]
  1. ^ Rudnicka, Karolina. Each AI chatbot has its own, distinctive writing style—just as humans do. Scientific American. 9 July 2025 [18 January 2026]. 
  2. ^ 2.0 2.1 2.2 10 Ways AI Is Ruining Your Students' Writing.. Chronicle of Higher Education. September 16, 2025 [October 1, 2025]. (原始内容存档于October 1, 2025). 
  3. ^ 3.0 3.1 Juzek, Tom S.; Ward, Zina B. Why Does ChatGPT "Delve" So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models (PDF). Findings of the Association for Computational Linguistics: ACL 2025. Association for Computational Linguistics. 2025 [October 13, 2025]. arXiv:2412.11385可免费查阅. (原始内容存档 (PDF)于January 21, 2025) –通过ACL Anthology. 
  4. ^ 谭老师工作室. 【地理视野】一文教你如何突破时区的秘密. 国际教育网. 2019-12-24 (中文(中国大陆)). 
  5. ^ 5.0 5.1 Reinhart, Alex; Markey, Ben; Laudenbach, Michael; Pantusen, Kachatad; Yurko, Ronald; Weinberg, Gordon; Brown, David West. Do LLMs write like humans? Variation in grammatical and rhetorical styles. Proceedings of the National Academy of Sciences. 2025-02-25, 122 (8) [2026-01-29]. ISSN 0027-8424. PMC 11874169可免费查阅. doi:10.1073/pnas.2422455122. 
  6. ^ Russell, Jenna; Karpinska, Marzena; Iyyer, Mohit. People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vienna, Austria: Association for Computational Linguistics: 5342–5373. 2025 [2025-09-05]. arXiv:2501.15654可免费查阅. doi:10.18653/v1/2025.acl-long.267可免费查阅. (原始内容存档于2025-08-29) –通过ACL Anthology. 
  7. ^ 朱宥勳. 對「AI腔」厭煩了嗎?分析AI生成文字的經典句型. [2025-05-25]. 
  8. ^ TVBS. 網紅舒二魚怒揭孫生「趁拍片強脫褲」! 反骨團隊竟冷眼旁觀│TVBS新聞網. TVBS. [2025-04-07] (中文(臺灣)). 
  9. ^ 孫生性騷擾風波再爆 舒二魚控「趁拍片強脫女生褲子」:10個合作8個被你摸過. Yahoo News. 2025-02-19 [2025-04-07] (中文(臺灣)). 
  10. ^ 薛羽彤. 孫生性騷擾延燒!網紅怒揭惡行「趁拍片強行脫褲」 培根冷眼旁觀 | 娛樂 | CTWANT. www.ctwant.com. 2025-02-19 [2025-04-07] (中文(臺灣)). 
  11. ^ 中時新聞網. 孫生再被爆「壓女生強脫褲」扭打1hr! 反骨團隊冷眼旁觀不制止 - 娛樂. 中時新聞網. 2025-02-20 [2025-04-07] (中文(臺灣)). 
  12. ^ TVBS. 放任孫生強壓網美! 培根「還原始末」鞠躬道歉:行為非常不齒│TVBS新聞網. TVBS. [2025-04-18] (中文(臺灣)). 
  13. ^ TVBS. 網紅舒二魚怒揭孫生「趁拍片強脫褲」! 反骨團隊竟冷眼旁觀│TVBS新聞網. TVBS. [2025-04-21] (中文(臺灣)). 
  14. ^ ETtoday新聞雲. 培根被控「旁觀孫生性騷女網紅」 還原過程道歉:他的行為很不齒 | ETtoday星光雲 | ETtoday新聞雲. star.ettoday.net. 2025-02-21 [2025-04-18] (中文(繁體)). 
  15. ^ TVBS. 放任孫生強壓網美! 培根「還原始末」鞠躬道歉:行為非常不齒│TVBS新聞網. TVBS. [2025-04-18] (中文(臺灣)). 
  16. ^ Merrill, Jeremy B.; Chen, Szu Yu; Kumer, Emma. What are the clues that ChatGPT wrote something? We analyzed its style.. The Washington Post. 13 November 2025 [14 November 2025]. 
  17. ^ 系統提示. Claude Docs. Anthropic. [2026-01-29]. 

延伸閱讀

[编辑]