Tensorflow Datasets の中から英語の文章のデータセットをまとめます。

データの一覧の取得

以下のコマンドでtensorflow_datasetsから取得出来るデータセットの一覧がわかります。

>>> import tensorflow_datasets as tfds
>>> tfds.list_builders()

英語のデータセット

大量のテキストのデータセット

c4

Web クロールで集めた巨大なデータセット。英語のは約 1TB ある。 英語以外の言語もデータがあり、すべての言語合わせると 26.76TB あるらしい。

librispeech_lm

5GB のデータセット

lm1b

5GB のデータセット

pg19

古い本のデータセット。10GB ぐらい。

reddit_disentanglement

reddit のデータセット。

wiki40b

wikipedia のデータセット。きれいになってる。

wikipedia

wikipedia のデータセット。きれいになってない。

その他データセット

その他の使えそうなデータセット

ag_news_subset

ニュース記事のタイトルと説明文が、その記事の種類にラベル付けされたデータセット。

math_dataset

数学に関する英語の問題とその答えのデータセット

tiny_shakespeare

シェイクスピアの文章