FineData
community
AI & ML interests
We release large pre-training datasets to accelerate open LLM development. Part of the Hugging Face Science team (hf.co/science)
Recent Activity
View all activity
Papers
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
-
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
Paper โข 2506.20920 โข Published โข 76 -
HuggingFaceFW/fineweb-2
Viewer โข Updated โข 4.48B โข 65.3k โข 711 -
Scaling FineWeb to 1000+ languages: Step 1: finding signal in 100s of evaluation tasks
๐86Evaluate multilingual models using FineTasks
FineWeb-Edu datasets, classifier and ablation model
-
HuggingFaceFW/fineweb-edu
Viewer โข Updated โข 3.5B โข 330k โข 899 -
HuggingFaceFW/fineweb-edu-score-2
Viewer โข Updated โข 13.9B โข 23.6k โข 83 -
HuggingFaceFW/fineweb-edu-classifier
Text Classification โข 0.1B โข Updated โข 28.1k โข โข 203 -
HuggingFaceFW/ablation-model-fineweb-edu
Text Generation โข 2B โข Updated โข 58 โข 19
Ablation models trained for our data experiments.
-
HuggingFaceFW/ablation-exp-textext-warc_trafilatura-28BT
Text Generation โข 2B โข Updated โข 3 โข 1 -
HuggingFaceFW/ablation-exp-textext-wet-28BT
Text Generation โข 2B โข Updated โข 2 -
HuggingFaceFW/ablation-exp-fw-base_filtering-350BT
Text Generation โข 2B โข Updated โข 2 -
HuggingFaceFW/ablation-exp-dedup-global_minhash-350BT
Text Generation โข 2B โข Updated โข 5
-
HuggingFaceFW/finepdfs
Viewer โข Updated โข 476M โข 22.4k โข 703 -
HuggingFaceFW/finepdfs-edu
Viewer โข Updated โข 49.5M โข 4.15k โข 63 -
HuggingFaceFW/ocr-annotations
Viewer โข Updated โข 1.62k โข 133 โข 16 -
HuggingFaceFW/finepdfs_lang_classification
Viewer โข Updated โข 3.08M โข 2.87k โข 4
-
FineWeb: decanting the web for the finest text data at scale
๐ท1.26kGenerate high-quality text data for LLMs using FineWeb
-
HuggingFaceFW/fineweb
Viewer โข Updated โข 52.5B โข 180k โข 2.6k -
HuggingFaceFW/fineweb-edu
Viewer โข Updated โข 3.5B โข 330k โข 899 -
HuggingFaceFW/fineweb-edu-score-2
Viewer โข Updated โข 13.9B โข 23.6k โข 83
1.8B models trained on 350BT to compare different pretraining datasets
-
HuggingFaceFW/ablation-model-fineweb-edu
Text Generation โข 2B โข Updated โข 58 โข 19 -
HuggingFaceFW/ablation-model-fineweb-v1
Text Generation โข 2B โข Updated โข 15 โข 14 -
HuggingFaceFW/ablation-model-refinedweb
Text Generation โข 2B โข Updated โข 3 โข 3 -
HuggingFaceFW/ablation-model-c4
Text Generation โข 2B โข Updated โข 4 โข 4
-
HuggingFaceFW/finepdfs
Viewer โข Updated โข 476M โข 22.4k โข 703 -
HuggingFaceFW/finepdfs-edu
Viewer โข Updated โข 49.5M โข 4.15k โข 63 -
HuggingFaceFW/ocr-annotations
Viewer โข Updated โข 1.62k โข 133 โข 16 -
HuggingFaceFW/finepdfs_lang_classification
Viewer โข Updated โข 3.08M โข 2.87k โข 4
-
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
Paper โข 2506.20920 โข Published โข 76 -
HuggingFaceFW/fineweb-2
Viewer โข Updated โข 4.48B โข 65.3k โข 711 -
Scaling FineWeb to 1000+ languages: Step 1: finding signal in 100s of evaluation tasks
๐86Evaluate multilingual models using FineTasks
-
FineWeb: decanting the web for the finest text data at scale
๐ท1.26kGenerate high-quality text data for LLMs using FineWeb
-
HuggingFaceFW/fineweb
Viewer โข Updated โข 52.5B โข 180k โข 2.6k -
HuggingFaceFW/fineweb-edu
Viewer โข Updated โข 3.5B โข 330k โข 899 -
HuggingFaceFW/fineweb-edu-score-2
Viewer โข Updated โข 13.9B โข 23.6k โข 83
FineWeb-Edu datasets, classifier and ablation model
-
HuggingFaceFW/fineweb-edu
Viewer โข Updated โข 3.5B โข 330k โข 899 -
HuggingFaceFW/fineweb-edu-score-2
Viewer โข Updated โข 13.9B โข 23.6k โข 83 -
HuggingFaceFW/fineweb-edu-classifier
Text Classification โข 0.1B โข Updated โข 28.1k โข โข 203 -
HuggingFaceFW/ablation-model-fineweb-edu
Text Generation โข 2B โข Updated โข 58 โข 19
1.8B models trained on 350BT to compare different pretraining datasets
-
HuggingFaceFW/ablation-model-fineweb-edu
Text Generation โข 2B โข Updated โข 58 โข 19 -
HuggingFaceFW/ablation-model-fineweb-v1
Text Generation โข 2B โข Updated โข 15 โข 14 -
HuggingFaceFW/ablation-model-refinedweb
Text Generation โข 2B โข Updated โข 3 โข 3 -
HuggingFaceFW/ablation-model-c4
Text Generation โข 2B โข Updated โข 4 โข 4
Ablation models trained for our data experiments.
-
HuggingFaceFW/ablation-exp-textext-warc_trafilatura-28BT
Text Generation โข 2B โข Updated โข 3 โข 1 -
HuggingFaceFW/ablation-exp-textext-wet-28BT
Text Generation โข 2B โข Updated โข 2 -
HuggingFaceFW/ablation-exp-fw-base_filtering-350BT
Text Generation โข 2B โข Updated โข 2 -
HuggingFaceFW/ablation-exp-dedup-global_minhash-350BT
Text Generation โข 2B โข Updated โข 5