Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Table of Contents

Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Chuyện là hồi trước, từ xa xưa rồi. Từ những năm 2013 mình có làm 1 site cá nhân tên là trangxoa.com

trangxoa.com

Sau vì một phút "sầu đời" mà mình bỏ rơi nó và kênh Youtube - soiqualang.chentreu, không gian hạn domain, hosting đi ở đậu nhà người ta cũng bỏ luôn mất hết database và source code

Nay bình tâm lại thì mình sai rồi. Muốn sửa sai với em nó thì.. hỡi ôi, gương vỡ sao lành được nữa. Data đã mất thì còn mong gì lấy lại được trọn vẹn =))

May nhờ cỗ máy thời gian web.archive.org còn lưu trữ chút hình bóng của người xưa. Nay có mong muốn backup về để mà lưu giữ và chia sẻ những kiến thức trong Web cũ. Đó cũng là việc khiến cho em ấy có thêm ý nghĩa với cuộc đời này :v

Giờ thì mình đã mua lại domain cũ rồi, nhưng nó sẽ không bao giờ quay lại với nội dung như trước nữa, mà nó sẽ là trang chia sẻ các câu châm ngôn của mình

Giao diện của Wayback machine

image

Dưới là khung thời gian mà trang web này "sao chụp" lại trang web của mình (Khoảng năm 2013 đến 2016)

Hic, cái giao diện thân quen khi xưa

image

image

image

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool The Wayback Machine Scraper

https://github.com/soiqualang/wayback-machine-scraper

The Wayback Machine Scraper Logo

Đây là tool giúp chúng ta crawl data từ cái web.archive.org ở trên

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool này được viết bằng python, do vậy cần máy có cài python để chạy. Hôm qua mình mới giới thiệu Google Cola (Google Collaboratory) nên giờ mình sẽ dùng nó để chạy tool luôn :v. Bắt đầu nào!


Warning: Undefined variable $comments_number in /shared/webdir2/dothanhlong.org/wp-content/themes/business-hub/comments.php on line 35

Warning: Undefined variable $comments_number in /shared/webdir2/dothanhlong.org/wp-content/themes/business-hub/comments.php on line 39
0 thoughts on “Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory”

  1. Cái này chỉ là lưu dưới dạng HTML xong sau đó mình vẫn phải mở ra và copy tay lên web đúng k bác? Cám ơn bác nhiều!

    1. Đúng rồi bạn, bản chất cái tool này là nó crawl web của mình ở dạng html rồi lưu lại, giờ mình download về cũng là html (web tĩnh thôi), nếu muốn đưa vô cái web động hiện có của mình thì phải đưa dữ liệu vào lại Database (copy thủ công hoặc viết tool import html vô DB). Còn làm biếng thì cứ vậy up lên host thì cũng duyệt được như web tĩnh thôi.

      1. Mình không biết python thì có cách nào sử dụng được không ạ? Hoặc bạn có thể tải cho mình 1 site được không? Mình gửi phí cafe ạ. Thanks bác ạ!

        1. Thế bạn tính download site nào? Mình xem thử mới đánh giá được download được hay ko hay trên Wayback machine đang có những snapshot nào khả dụng. Còn phí cà phê thì để xem bạn cần gì, nếu đơn giản thì khỏi cũng được, xem như quen thêm người bạn.

          1. Em cám ơn bác. E định dựng lại mà thấy mất công quá nên bán luôn domain rồi. Chúc site bác luôn phát triển ạ!

    1. Cái này download được cả trang đó bạn, nhưng chỉ những trang mà Wayback machine đã lưu trước khi site đó ngủm đó nên có thể có những trang (không được index) sẽ không có.
      Còn nếu site đó còn sống thì mình có thể download được tất cả các page luôn (Dùng tool khác hoặc tự viết)

Leave a Reply

Your email address will not be published. Required fields are marked *