Tensorflow Datasetsにある英語の巨大なテキストのデータセット

Tensorflow Datasets の中から英語の文章のデータセットをまとめます。

以下のコマンドでtensorflow_datasetsから取得出来るデータセットの一覧がわかります。

>>> import tensorflow_datasets as tfds
>>> tfds.list_builders()

大量のテキストのデータセット

Web クロールで集めた巨大なデータセット。英語のは約 1TB ある。英語以外の言語もデータがあり、すべての言語合わせると 26.76TB あるらしい。

5GB のデータセット

5GB のデータセット

古い本のデータセット。10GB ぐらい。

reddit のデータセット。

wikipedia のデータセット。きれいになってる。

wikipedia のデータセット。きれいになってない。

その他の使えそうなデータセット

ニュース記事のタイトルと説明文が、その記事の種類にラベル付けされたデータセット。

数学に関する英語の問題とその答えのデータセット

シェイクスピアの文章