プレ環境の共有ディスクはチームで5TBまで使える(4/21 10:56 2.5T)
移送方法
プレ環境へ移送するデータ(jsonlのtextのみ)
CommonCrawl
rephrasing=False
とりあえずsomeyaの個人ディレクトリにダウンロード済み(GoogleDrive → プレ環境)
3.87GBをダウンロード開始→保存まで2m20s
jsonlをtextキーのみとした場合,容量3.87GB→1.90GBまで減少
from gdown import download
download('<https://drive.google.com/uc?id=1--AWdWz0uZNi_tNW7cbhtVO8pdbAtGg_>', 'cc_filtered_deduped_rephrasing-false.jsonl', quiet = False)
rephrasing=True
CulturaX
Japanese2010
Wikipedia
/persistentshare/storage/team_ozaki/datasets/llm-jp/data/filter
以下からコピーWiktionary
Scraping