スクレイピング
① ストーリー性を取り入れた説明:スクレイピングとは?
放課後のパソコン部、ユウキは先生の元に駆け寄りました。
ユウキ:「先生、ニュースサイトとかから自動で情報を取ってくる『スクレイピング』って技術があるって聞いたんですけど、あれってAIが勝手に調べてくれるRAGと似てるんですか?」
先生:「いいところに気がついたね。どちらも“情報を取ってくる”という点では共通しているけど、スクレイピングとRAG(Retrieval-Augmented Generation)は目的も仕組みも違うんだ。」
ユウキ:「え?どう違うんですか?」
先生:「スクレイピングは、人間が普段見ているWebページから情報を自動で抽出する技術なんだ。HTMLの中身を解析して、例えば商品名や価格、ニュースの見出しだけを集めるといった使い方をするんだよ。」
ユウキ:「ふむふむ。じゃあRAGは?」
先生:「RAGは生成AIが回答を作るために、必要な文献や知識ベースから“検索してきて使う”技術なんだ。言ってみれば、スクレイピングは“データ収集のロボット”、RAGは“質問に賢く答えるために本を引っ張ってくるアシスタント”だね。」
ユウキ:「おぉ、なるほど!スクレイピングは目的が“情報の収集”、RAGは“回答の質を高める”って感じですね!」
先生:「その通り!あとスクレイピングは、対象のWebサイトによってはスクレイピングの利用が禁止されていたり、マナー違反になることもあるから注意が必要だよ。過剰にアクセスするとサーバーに負担がかかってしまうしね。」
ユウキ:「えっ、法律に違反することもあるんですか?」
先生:「著作権や利用規約に違反するとトラブルになる場合もある。だから実際に使う時は、技術だけじゃなくて倫理やルールもきちんと理解しておくことが大事なんだ。」
スクレイピングの定義
スクレイピングとRAGの比較表
項目 | スクレイピング | RAG |
---|---|---|
主な目的 | Webサイトから情報を抽出する | 必要な知識を外部から検索し、AIの回答に活用 |
処理対象 | HTMLなどWebページの構造 | 文書・ナレッジベース・検索エンジンなど |
利用方法 | プログラムでサイトにアクセスしてデータ取得 | AIが質問に応じて動的に検索+生成 |
使用例 | ニュース収集、価格調査 | FAQ自動応答、法的文書の自動回答 |
利点 | 自動で大量の情報が集められる | 回答の正確性と情報の網羅性が向上 |
② 実際の事例
スクレイピングの活用事例として有名なのは、旅行サイトや価格比較サイトです。 例えばある価格比較サイトでは、複数のECサイトの商品価格や在庫状況をスクレイピングによって定期的に取得し、ユーザーが最も安い価格で商品を見つけられるようにしています。
また、自治体では、コロナウイルス感染者数の速報ページから情報を自動取得し、グラフ表示やアラート通知に活用した例もあります。
ただし、最近ではスクレイピング対策として、JavaScriptでデータを生成したり、人間であることを確認するCAPTCHAを導入するサイトも増えており、開発者は法的リスクや技術的対応も考慮する必要があります。
③ クイズや小テスト
クイズ1:スクレイピングの主な目的は?
A. Webページの情報を自動取得すること
B. コンピュータを冷却すること
C. デザインを自動生成すること
クイズ2:RAGとスクレイピングの違いは?
A. RAGは情報を集める、スクレイピングは文章を生成する
B. スクレイピングはWeb構造から取得、RAGは検索して回答の精度を上げる
C. どちらも全く同じ技術
クイズ3:スクレイピングを使う上で注意すべきことは?
A. アニメの知識
B. サイトの著作権や利用規約
C. コンピュータの電源周波数
回答と解説
- クイズ1の答え:A. Webページの情報を自動取得すること
→ スクレイピングはWebページの中身を自動で取得する技術です。 - クイズ2の答え:B. スクレイピングはWeb構造から取得、RAGは検索して回答の精度を上げる
→ 目的も対象も異なる技術です。 - クイズ3の答え:B. サイトの著作権や利用規約
→ 法的トラブルにならないように利用には注意が必要です。