Up
学習データセット ── GPT-3 の場合
作成: 2025-05-07
更新: 2025-05-07
ボリューム:570GB
内訳
Think IT
から引用:
WebText2 は,Common Crawlコーパス以外のWebページのデータ。
Book1 と Book2 は書籍データ (どのような情報が使われたかについては明確にされていない。
Common Crawl コーパス
世界最大のオープンなコーパス
インターネットのWebサイトをクロール (巡航)し,そこに掲載されているテキストデータをスクレイピング (データ取得)して,コーパスに。
https://commoncrawl.org/
コーパス corpus
引用/参考ウェブサイト
Think IT
大規模言語モデルの概要
Wikipedia
コモン・クロール