Web Crawler là gì?

Hôm này ngồi cafe buồn quá, chẳng biết làm gì, ngồi nghĩ 1 cái đơn giản để viết. Vào muare xem có gì vui không, gặp ngay quảng cáo trang 123go.vn. Thấy nó kêu “sử dụng công nghệ tìm kiếm tin đăng rao vặt từ tất cả các webiste rao vặt, giúp bạn dễ dàng tìm thấy thông tin rao vặt mình cần chỉ với 1 lần click chuột“. Đến đây mới thấy là các kiểu website này ở VN đang bắt đầu mọc lên rồi. Đó là các website thu thập dữ liệu, lọc dữ liệu, tìm kiếm dữ liệu từ những website có sẵn trên mạng với nguồn dữ liệu lớn ví dụ như Google, Youtube, MySpace,…


Nhân tiện nghĩ đến cái thuật ngữ Web Crawler mà lần đầu tiên mình biết và trực tiếp làm nó là năm 2006. Thuật ngữ khác của Web Crawler có thể dễ hiểu hơn là Web Spider hoặc Web Robot. Được hiểu nó là 1 chương trình hoặc các đoạn mã có khả năng tự động duyệt các trang web # theo 1 phương thức, cách thức tự động. Những từ dùng để chỉ thuật ngữ Web Crawler như ants, automatic indexers, bots, and worms.

Quá trình thực hiện được gọi là Web crawling hay spidering, rất nhiều các công cụ tìm kiếm trên thế giới sử dụng spidering để cập nhật kho dữ liệu website của mình. Chẳng hạn như google dùng nó để lấy các thông tin trên các website ồi cập nhật vào cơ sở dữ liệu của nó giúp người dùng search ra các trang theo ý muốn.

Web crawler là 1 loại của cái gọi là bot (là 1 tác tử thực hiện tự động, đại loại nghĩa giống như spider). Đại loại, nó bắt đầu từ danh sách các địa chỉ URL được gọi là seeds (hạt giống). Nó sẽ vào các địa chỉ này lọc thông tin rồi tìm ra các địa chỉ URL khác thêm chúng vào danh sách các địa chỉ đã duyệt qua gọi là crawl frontier. Sau nó nó lại lặp lại quá trình đó duyệt qua những URL mới. Cứ thế, cứ thể nó lần qua rất nhiều địa chỉ website và thu thập rất nhiều nội dung khác nhau giúp ta dễ dàng tìm kiếm thông tin mình cần.

Trên thế giới những web crawler rất nhiều và áp dụng vào rất nhiều loại hình website khác nhau như: web xxx, web rao vặt, web so sánh giá, web tổng hợp tin tức, web tìm kiếm,…

Ở Việt Nam cũng đã xuất hiện khá nhiều như:

- Web so sánh giá cả aha.vn

- Web tổng hợp tìm kiếm rao vặt 123g0.com

- Web tổng hợp tin tức như: baomoi.com, timnhanh.com,…

- Web tổng hợp nhạc, tìm kiếm nhạc như: baamboo.com, mp3.zing.vn, 7sac.com

- Web tổng hợp tìm kiếm như: vnnsearch.com, vnsearch.net,…

- Và còn có thể có nhiều trang web nữa mà tôi chưa biết…

Trong tương lai việc lọc các tin tức trên internet sẽ là rất quan trọng giúp cho người sử dụng dễ dàng tìm được cái minh muốn. Internet ngày càng lớn mạnh cũng có người là lượng thông tin ngày càng nhiều và càng trở nên hỗn độn hơn. Hy vọng sẽ có nhiều website tốt hơn cho người dùng internet.

button Web Crawler là gì?

Comments

  1. bugcheck says:

    bác nào post bài này cho em liên hệ hỏi tí được ko ạ. Nick em là thebit01. Mong nhận được trả lời sớm của bác.

  2. ha says:

    ban co the cho minh it tai lieu ve cai nay dc ko
    minh muon tim hieu ve cai nay . hay ban co the giang cho minh ve cach thuc hoat dong hay code tao no dc ko?dung java dung ko ban.cam on ban nhieu!

  3. ha says:

    mail cua minh la haat2c@gmail.com

  4. quân says:

    Mình đang làm đề tài về “khai phá dữ liệu Web” mình rất cần tài liệu ,bạn có thể chia sẻ được khong ,yahoo :nguyenquanit
    thank bạn

  5. ngocninhcntt says:

    mình cũng đang nghiên cứu về vấn đề này ai có tài liệu về nó thì share cho minh

    gmail: ngocninhcntt@gmail.com
    yahoo: tcn_mai_nho_mot_nguoi_12a1

  6. seika09 says:

    Mình cũng đang nghiên cứu đề tài này … bạn cho mình ít tài liệu tham khảo được không … thanks bạn …
    có gì liên lạc mail : nhantripc2010@yahoo.com.vn hộ mình nhá

Speak Your Mind

*