LLM-jpによるWebクローリング

LLM-jpでは、大規模言語モデルの事前学習コーパスを構築するために、Webページをクローリングによって収集しています。収集したWebページは大規模言語モデルに関する研究開発目的以外には利用しません。

WebクローリングにはLLM-jp-Crawlerを用いています。LLM-jp-Crawlerの収集元IPアドレスは次のとおりです。

  • 収集元IPアドレス: 163.220.189.[0-255]の範囲

収集先ホストに過度な負荷をかけないように細心の注意を払ってクローリングしています。 LLM-jp-Crawlerによるクローリングをブロックしたい場合には、以下のようなrobots.txtファイルをWebサイトのルートに配置してください。

User-agent: LLM-jp-Crawler
Disallow: /

万が一、LLM-jp-Crawlerの動作に問題があった場合には、下記の連絡先にご連絡をいただければ直ちに収集を停止するなどの対処を行います。

  • LLM-jpクローリング担当: llm-jp-crawler(at)nii.ac.jp