哈佛開源含有2,420億Token的AI資料集Institutional Books 1.0

由微軟及OpenAI贊助、起源於哈佛法學院圖書館研究計畫的機構資料計畫(Institutional Data Initiative,IDI),上周開源了AI資料集Institutional Books 1.0,內含98.3萬本的哈佛藏書,總計3.86億頁,以及2,420億個Token與245種語言,而這也是IDI所釋出的首個公共領域圖書。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *