哈佛開源含有2,420億Token的AI資料集Institutional Books 1.0 發佈日期: 16 6 月, 2025 作者: wellchen2020 由微軟及OpenAI贊助、起源於哈佛法學院圖書館研究計畫的機構資料計畫(Institutional Data Initiative,IDI),上周開源了AI資料集Institutional Books 1.0,內含98.3萬本的哈佛藏書,總計3.86億頁,以及2,420億個Token與245種語言,而這也是IDI所釋出的首個公共領域圖書。