Tensorflow Datasets の中から英語の文章のデータセットをまとめます。
データの一覧の取得
以下のコマンドでtensorflow_datasets
から取得出来るデータセットの一覧がわかります。
>>> import tensorflow_datasets as tfds
>>> tfds.list_builders()
英語のデータセット
大量のテキストのデータセット
c4
Web クロールで集めた巨大なデータセット。英語のは約 1TB ある。 英語以外の言語もデータがあり、すべての言語合わせると 26.76TB あるらしい。
librispeech_lm
5GB のデータセット
lm1b
5GB のデータセット
pg19
古い本のデータセット。10GB ぐらい。
reddit_disentanglement
reddit のデータセット。
wiki40b
wikipedia のデータセット。きれいになってる。
wikipedia
wikipedia のデータセット。きれいになってない。
その他データセット
その他の使えそうなデータセット
ag_news_subset
ニュース記事のタイトルと説明文が、その記事の種類にラベル付けされたデータセット。
math_dataset
数学に関する英語の問題とその答えのデータセット
tiny_shakespeare
シェイクスピアの文章