Datasets

Tensorflow Datasets の中から英語の文章のデータセットをまとめます。データの一覧の取得以下のコマンドでtensorflow_datasetsから取得出来るデータセットの一覧がわかります。 >>> import tensorflow_datasets as tfds >>> tfds.list_builders() 英語のデータセット大量のテキストのデータセット c4 Web クロールで集めた巨大なデータセット。英語のは約 1TB ある。英語以外の言語もデータがあり、すべての言語合わせると 26.76TB あるらしい。 librispeech_lm 5GB のデータセット lm1b 5GB のデータセット pg19 古い本のデータセット。10GB ぐらい。 reddit_disentanglement reddit のデータセット。 wiki40b wikipedia のデータセット。きれいになってる。 wikipedia wikipedia のデータセット。きれいになってない。その他データセットその他の使えそうなデータセット ag_news_subset ニュース記事のタイトルと説明文が、その記事の種類にラベル付けされたデータセット。 math_dataset 数学に関する英語の問題とその答えのデータセット tiny_shakespeare シェイクスピアの文章