Tensorflow Datasetsにある英語の巨大なテキストのデータセット
Tensorflow Datasets の中から英語の文章のデータセットをまとめます。 データの一覧の取得 以下のコマンドでtensorflow_datasetsから取得出来るデータセットの一覧がわかります。 >>> import tensorflow_datasets as tfds >>> tfds.list_builders() 英語のデータセット 大量のテキストのデータセット c4 Web クロールで集めた巨大なデータセット。英語のは約 1TB ある。 英語以外の言語もデータがあり、すべての言語合わせると 26.76TB あるらしい。 librispeech_lm 5GB のデータセット lm1b 5GB のデータセット pg19 古い本のデータセット。10GB ぐらい。 reddit_disentanglement reddit のデータセット。 wiki40b wikipedia のデータセット。きれいになってる。 wikipedia wikipedia のデータセット。きれいになってない。 その他データセット その他の使えそうなデータセット ag_news_subset ニュース記事のタイトルと説明文が、その記事の種類にラベル付けされたデータセット。 math_dataset 数学に関する英語の問題とその答えのデータセット tiny_shakespeare シェイクスピアの文章