AI與數學家正面交鋒,數學難題一一被突破?2025年歷程全紀錄
隨著AI發展飛速前進,過往以為無法被攻克的「數學難題」領域,陸續也出現AI挑戰成功的新聞。
數學家會被AI取代嗎?AI還有甚麼無法破解的?
本系列文章將整理並記錄AI成功解出數學難題的新聞。
2025/05/25
Google 打破 56 年未解的數學難題!新一代 AI「AlphaEvolve」自創演算法,刷新科學探索邊界
Google DeepMind 發表了以 Gemini 為核心驅動的全新演算法設計工具「AlphaEvolve」。這是一款通用的程式碼智慧體(Coding Agent),其最大突破在於跳脫了過往 AI 僅能應對單一領域的限制,轉而將大型語言模型的創造力與自動評估器相結合,透過「演算法進化」的方式自主探索、修補並優化程式碼,進而自動生成全新的演算法。
在面對 50 道涵蓋幾何、組合數學與數論等開放式數學難題時,AlphaEvolve 不僅在 75% 的題目中成功重現了當前人類的最佳解法,更在 20% 的題目中跨越了現有學術極限,探索出更好的全新證明與構造。其中最受矚目的成果是它自主設計出一套搜索演算法,打破了高懸 56 年的數學紀錄,將 4×4 複數矩陣乘法所需的純量乘法次數從 49 次降至 48 次,再次印證了 AI 在高等數學與演算法理論前沿具備強大的自主科研潛力。
https://www.techbang.com/posts/123226-deepmind-alphaevolve-ai-algorithm-breakthrough
2025/07/22
誰是AI數學解題之王?Gemini、ChatGPT奧林匹克賽都摘金,誰更接近頂尖天才高中生?
Google DeepMind 推出的新一代 AI 推理模型 Gemini Deep Think,在 2025 年國際數學奧林匹亞競賽(IMO)中成功解出 5 道高難度題目,奪得金牌等級的 35 分,創下歷史紀錄。
相較於過去的模型需要專家將題目轉譯為特定程式語言並耗時數日運算,這次的突破在於「端到端」的卓越能力。該模型能直接以人類的自然語言理解題意,並在與人類選手相同的 4.5 小時競賽時限內,探索並整合多條解題路徑,自主生成嚴謹的數學證明。IMO 評審盛讚其解答清晰、精準且易於理解。這項進展不僅證實了 AI 在複雜邏輯與多步驟推理上的重大飛躍,也預示著未來人機協作探索高等數學的新範式。
https://www.bnext.com.tw/article/83951/google-gemini-imo-ai-math-gold
2025/08/28
AI解數學題遇「貓咪冷知識」 史丹佛研究:答錯率竟暴增300%
史丹佛大學研究團隊近期針對人工智慧在數學推理上的表現進行了一項有趣測試,結果發現 AI 模型在面對數學難題時,極易受到「無關資訊」的干擾。
實驗中,研究人員在原本的數學題目裡隨機加入一些無害且與解題無關的「貓咪冷知識」。令人驚訝的是,這些額外資訊會直接干擾 AI 的脈絡理解與邏輯判斷,導致其答錯問題的機率暴增達 300%。這項發現揭示了當前 AI 在高等數學等複雜邏輯推理上的一大漏洞:它仍缺乏人類那種能精準過濾雜訊、鎖定核心關鍵的判斷力。這也顯示即便 AI 運算再強大,仍會在微小的無關敘述中陷入邏輯混亂,難以完全取代人類的思維深度。
https://news.tvbs.com.tw/world/2973297
2025/10/20
GPT-5「破解」埃爾德什問題爆爭議,OpenAI 高層刪文道歉稱僅查找現有解答
OpenAI 高層宣稱 GPT-5 成功解決了十個懸而未決的「艾狄胥問題」,隨即在科技與學術界引發軒然大波與強烈抨擊。Google DeepMind 執行長哈薩比斯直言這項誇大宣傳令人感到「恥辱」,Meta 首席 AI 科學家楊立昆也對此嚴厲譴責。
面對鋪天蓋地的批評,OpenAI 隨後刪除相關文章並公開道歉。研究人員澄清,GPT-5 實際上並非「創造」出全新解法,而是從龐大文獻中成功「查找」到現有的隱蔽答案。這起風波不僅讓 OpenAI 的公信力遭到質疑,也凸顯了業界在評估 AI 真正的高等數學推理實力時,對於「自主原創證明」與「既有文獻檢索」之間存在著嚴格的界線認知。
https://technews.tw/2025/10/20/openais-gpt-5-math-claims-spark-industry-backlash/
2025/09/20
人類數學天才解不開的難題,AI「Gauss」(高斯) 三週搞定,數學家也要面臨工作危機了嗎?
解幾何猜想的 AI 系統「Gauss」在陶哲軒教授的親自測試與引導下,成功攻克了一道困擾幾何學界數十年的高難度拓撲不變量猜想,展示了人機協作在高等數學前沿研究的巨大潛力。
這項進展的關鍵在於新型的互動模式。陶哲軒並非直接讓 AI 尋找答案,而是利用一組特製的「啟發式提示詞鏈」,引導 Gauss 將複雜的流形結構拆解為數個低維度的對稱性模型。Gauss 在接收提示後,自主切換了四種不同的代數工具,最終構造出一個連人類專家都未曾設想過的反例。陶哲軒隨後對此表示,這項成果證實了當前 AI 已經具備極強的架構理解力,只要人類能給予精準的邏輯方向,AI 就能化身為最強大的「智慧協作者」,大幅縮短高等數學研究的摸索週期。
https://www.techbang.com/posts/125460-ai-gauss-solves-math-problem-terence-tao-explains
2025/10/04
陶哲軒聯手GPT-5,1小時攻克數學難題!全程無編碼,OpenAI副總驚呼
菲爾茲獎得主陶哲軒在社群平台分享,他與 GPT-5 透過長達一小時的逐步對話與深度互動,成功攻克了一道關於「最小公倍數序列是否為高度豐數子集」的 MathOverflow 複雜數學題。
陶哲軒在理論上已推導出否定答案,但需要繁瑣的數值搜尋來構建具體反例。他放棄讓 AI 直接生成程式碼的初衷,轉而引導 AI 進行啟發式計算,將複雜問題拆解。最終,AI 不僅在過程中幫忙糾正了多處數學錯誤,更精準找出符合條件的參數,並生成 29 行 Python 腳本完成獨立驗證。陶哲軒坦言,這種人機協作模式將原本需耗時數小時的編碼偵錯壓縮成高效流程,在清晰的任務規劃下更完全避免了 AI 幻覺,充分展現 AI 釋放人類研究精力、成為可靠科研協作者的巨大潛力。
https://hao.cnyes.com/post/198481
2025/11/20
AI 數學真的沒很好,五大模型 ORCA 測試成績不及格
由歐洲多所大學與 Omni Calculator 共同開發的全新數學基準測試「ORCA」結果顯示,包含 ChatGPT-5、Gemini 2.5 Flash 及 Claude 4.5 Sonnet 等五款全球主流大型語言模型,在日常與跨領域數學計算的測試中全數不及格,平均得分皆在 63% 以下。
這項測試涵蓋金融、物理、生物等領域共 500 個實用計算提示。研究指出,儘管這些模型在傳統基準測試(如 GSM8K)中能拿到接近滿分的高分,但多半是因為訓練資料早已納入題庫「背出答案」。面對真實世界的精準計算,AI 有近四成機率出錯,其主要漏洞並非複雜的邏輯推理,而是基本的算術錯誤與四捨五入等精度瑕疵。這項發現戳破了 AI 的數學全能神話,證實基於文字機率預測的大語言模型,在確定性運算上仍存在核心局限。
https://technews.tw/2025/11/20/ai-is-actually-bad-at-math-orca-shows/
2025/11/24
Gemini 3十分鐘解出百年數學難題 陶哲軒:表現遠超預期
Google 旗下的推理模型 Gemini 3 在最新實測中展現突破性進展,不僅在難度極高的 FrontierMath 高階數學基準測試中刷新紀錄(Tier 1–3 準確率達 38%,Tier 4 達 19%),更在綜合能力指標上超越先前保持紀錄的 GPT-5.1。
除了標準測試表現亮眼,菲爾茲獎得主陶哲軒也在社群平台分享,他使用 Gemini Deepthink 模式處理著名的艾狄胥問題(Erdős problems #367),模型僅花短短十分鐘便成功推導出一組完整且可供檢驗的證明框架,後續更順利通過了形式化驗證。這項實際科研成果獲得陶哲軒高度盛讚,認為其表現已遠超預期,再度印證 AI 正在為高等數學前沿研究帶來實質的生產力變革。
https://ai.ettoday.net/news/3072388
2025/12/13
科學人/AI首次獨立破解30年數學懸案!人類數學家最終堡壘已被攻克?
美國約翰霍普金斯大學數學家里爾(Emily Riehl)與菲爾茲獎得主陶哲軒,針對 AI 攻克 30 年數學懸案後的典範轉移發表看法。儘管 AI 已能處理嚴謹的形式化證明,但專家指出,高等數學本質更重視邏輯與形式證明,AI 的進展目前多集中於解決數學長尾問題中相對容易的「最低果實」。
這項突破預示著數學家將面臨轉職,從過去親手撰寫證明細節的「建築工人」,轉變為負責勾勒高階藍圖與提供直覺猜想的「建築師」,而繁瑣的形式化砌磚工作則交由 AI 負責。這種「直覺形式化(vibe formalizing)」的合作模式,將能協助人類研究者清除容易的阻礙、精準標記出真正困難的題目,推動數學研究以更快速度向前邁進。
https://udn.com/news/story/6904/9196909
繼續來看看2026年的相關報導: