Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Chuyện là hồi trước, từ xa xưa rồi. Từ những năm 2013 mình có làm 1 site cá nhân tên là trangxoa.com

trangxoa.com

Sau vì một phút “sầu đời” mà mình bỏ rơi nó và kênh Youtube – soiqualang.chentreu, không gian hạn domain, hosting đi ở đậu nhà người ta cũng bỏ luôn mất hết database và source code

Nay bình tâm lại thì mình sai rồi. Muốn sửa sai với em nó thì.. hỡi ôi, gương vỡ sao lành được nữa. Data đã mất thì còn mong gì lấy lại được trọn vẹn.

May nhờ cỗ máy thời gian web.archive.org còn lưu trữ chút hình bóng của người xưa. Nay có mong muốn backup về để mà lưu giữ và chia sẻ những kiến thức trong Web cũ. Đó cũng là việc khiến cho em ấy có thêm ý nghĩa với cuộc đời này :v

Giờ thì mình đã mua lại domain cũ rồi, nhưng nó sẽ không bao giờ quay lại với nội dung như trước nữa, mà nó sẽ là trang chia sẻ các câu châm ngôn của mình

Giao diện của Wayback machine

Dưới là khung thời gian mà trang web này “sao chụp” lại trang web của mình (Khoảng năm 2013 đến 2016)

Hic, cái giao diện thân quen khi xưa

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool The Wayback Machine Scraper

https://github.com/soiqualang/wayback-machine-scraper

The Wayback Machine Scraper Logo

Đây là tool giúp chúng ta crawl data từ cái web.archive.org ở trên

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool này được viết bằng python, do vậy cần máy có cài python để chạy. Hôm qua mình mới giới thiệu Google Cola (Google Collaboratory) nên giờ mình sẽ dùng nó để chạy tool luôn :v. Bắt đầu nào!

Kiểm tra The Wayback Machine Scraper đã được cài đặt trên Google cola chưa. Ồ chưa, vậy thì cài wayback-machine-scraper thôi

pip install wayback-machine-scraper

Kiểm tra cú pháp sử dụng của cái tool này

wayback-machine-scraper -h

Tạo thư mục để lưu kết quả crawl về, sau đó chạy tool

wayback-machine-scraper -f 20130829 -t 20161009 trangxoa.com

Với thời gian từ (-f) đến (-t)

hoặc lấy hết dữ liệu

wayback-machine-scraper trangxoa.com

Kết quả sau khi chạy tool, web được lưu về dưới dạng snapshot. Chỉ việc rename lại thành.html là xem bằng trình duyệt được

Tiến hành nén thư mục lại để dễ download về backup (Để trên Google là mất đấy :v )

Download dữ liệu đã được nén từ Google Collaboratory

Full quá trình thực hiện của mình ở đây nhé!

Một số hình ảnh về trang web cũ của mình^^

https://web.archive.org/web/20150711204452/http://trangxoa.com:80/

https://web.archive.org/web/20150711204452/http://trangxoa.com:80/web/

https://web.archive.org/web/20140202113536/http://trangxoa.com:80/web/index.php?pages=gis&id=33
https://web.archive.org/web/20131116213534/http://trangxoa.com:80/web/index.php?pages=gis&id=17
https://web.archive.org/web/20140215152936/http://trangxoa.com:80/web/index.php?pages=gis&id=15
https://web.archive.org/web/20140114180636/http://trangxoa.com:80/web/index.php?pages=gis

_Hoài niệm…

soiqualang_chentreu