Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory
Chuyện là hồi trước, từ xa xưa rồi. Từ những năm 2013 mình có làm 1 site cá nhân tên là trangxoa.com
trangxoa.com
Sau vì một phút "sầu đời" mà mình bỏ rơi nó và kênh Youtube - soiqualang.chentreu, không gian hạn domain, hosting đi ở đậu nhà người ta cũng bỏ luôn mất hết database và source code
Nay bình tâm lại thì mình sai rồi. Muốn sửa sai với em nó thì.. hỡi ôi, gương vỡ sao lành được nữa. Data đã mất thì còn mong gì lấy lại được trọn vẹn.
May nhờ cỗ máy thời gian web.archive.org còn lưu trữ chút hình bóng của người xưa. Nay có mong muốn backup về để mà lưu giữ và chia sẻ những kiến thức trong Web cũ. Đó cũng là việc khiến cho em ấy có thêm ý nghĩa với cuộc đời này :v
Giờ thì mình đã mua lại domain cũ rồi, nhưng nó sẽ không bao giờ quay lại với nội dung như trước nữa, mà nó sẽ là trang chia sẻ các câu châm ngôn của mình

Giao diện của Wayback machine

Dưới là khung thời gian mà trang web này "sao chụp" lại trang web của mình (Khoảng năm 2013 đến 2016)
Hic, cái giao diện thân quen khi xưa

Tool The Wayback Machine Scraper
https://github.com/soiqualang/wayback-machine-scraper

Đây là tool giúp chúng ta crawl data từ cái web.archive.org ở trên
https://web.archive.org/web/20161009185733/http://trangxoa.com/
Tool này được viết bằng python, do vậy cần máy có cài python để chạy. Hôm qua mình mới giới thiệu Google Cola (Google Collaboratory) nên giờ mình sẽ dùng nó để chạy tool luôn :v. Bắt đầu nào!
Kiểm tra The Wayback Machine Scraper đã được cài đặt trên Google cola chưa. Ồ chưa, vậy thì cài wayback-machine-scraper thôi
pip install wayback-machine-scraper

Kiểm tra cú pháp sử dụng của cái tool này
wayback-machine-scraper -h

Tạo thư mục để lưu kết quả crawl về, sau đó chạy tool
wayback-machine-scraper -f 20130829 -t 20161009 trangxoa.com
Với thời gian từ (-f) đến (-t)
hoặc lấy hết dữ liệu
wayback-machine-scraper trangxoa.com

Kết quả sau khi chạy tool, web được lưu về dưới dạng snapshot. Chỉ việc rename lại thành.html là xem bằng trình duyệt được

Tiến hành nén thư mục lại để dễ download về backup (Để trên Google là mất đấy :v )

Download dữ liệu đã được nén từ Google Collaboratory

Full quá trình thực hiện của mình ở đây nhé!
Một số hình ảnh về trang web cũ của mình^^
https://web.archive.org/web/20150711204452/http://trangxoa.com:80/







https://web.archive.org/web/20150711204452/http://trangxoa.com:80/web/













_Hoài niệm...
soiqualang_chentreu
]]>
10 Comments
Phong Thần Thánh
Cái này chỉ là lưu dưới dạng HTML xong sau đó mình vẫn phải mở ra và copy tay lên web đúng k bác? Cám ơn bác nhiều!
soiqualang_chentreu
Đúng rồi bạn, bản chất cái tool này là nó crawl web của mình ở dạng html rồi lưu lại, giờ mình download về cũng là html (web tĩnh thôi), nếu muốn đưa vô cái web động hiện có của mình thì phải đưa dữ liệu vào lại Database (copy thủ công hoặc viết tool import html vô DB). Còn làm biếng thì cứ vậy up lên host thì cũng duyệt được như web tĩnh thôi.
Phong Thần Thánh
Mình không biết python thì có cách nào sử dụng được không ạ? Hoặc bạn có thể tải cho mình 1 site được không? Mình gửi phí cafe ạ. Thanks bác ạ!
soiqualang_chentreu
Thế bạn tính download site nào? Mình xem thử mới đánh giá được download được hay ko hay trên Wayback machine đang có những snapshot nào khả dụng. Còn phí cà phê thì để xem bạn cần gì, nếu đơn giản thì khỏi cũng được, xem như quen thêm người bạn.
Phong Thần Thánh
Em cám ơn bác. E định dựng lại mà thấy mất công quá nên bán luôn domain rồi. Chúc site bác luôn phát triển ạ!
Phong Thần Thánh
Không thấy contact của bác nhỉ @@
An
cái này chỉ down đc 1 trang url thôi hả chủ thớt? chứ o down đc cả site
soiqualang_chentreu
Cái này download được cả trang đó bạn, nhưng chỉ những trang mà Wayback machine đã lưu trước khi site đó ngủm đó nên có thể có những trang (không được index) sẽ không có.
Còn nếu site đó còn sống thì mình có thể download được tất cả các page luôn (Dùng tool khác hoặc tự viết)
toang
Bác cho hỏi có lấy được ảnh về không?
Thành
Bác cho em xin contact hỏi cho dễ được không. Em gửi ít tiền cafe