NỘI DUNG
Với ý định ban đầu sẽ viết một bài về HyperText Transfer Protocol Secure (HTTPS) nhưng sau một hồi hì hục sắp xếp ý tưởng, tôi chợt nhận ra bao nhiêu năm lướt Web rồi mà tôi vẫn chưa một lần tự hỏi “Web là cái vẹo gì?”. Xuất phát từ câu hỏi nhức nhối đó, tôi xắn tay áo lên sờ mó vào cái Web để xem nó cấu tạo tròn méo và hoạt động như thế nào.
#1. Chuyện bắt đầu như thế nào?
Chuyện bắt đầu vào một ngày định mệnh năm 1980 tại một phòng thí nghiệm của CERN ở Geneva Switzerland, nơi ông Tim Berners-Lee – lúc này này đang là thanh niên trẻ khỏe – làm việc. Dù đang ở giai đoạn thể lực sung mãn nhưng ông cũng đã quá đuối việc hàng ngày phải liên tục di chuyển qua lại để truy cập các văn bản và cơ sở dữ liệu nằm trên thiết bị khác nhau. Để thoát khỏi kiếp nạn thể dục cưỡng bức này, ông đã bắt tay vào viết một chương trình cho phép truy cập các dữ liệu cá nhân đang phân bố rải rác trên các thiết bị với tên gọi “Enquire-Within-Upon-Everything” (gọi tắt là Enquire).
Bẵng đi một thời gian, đến năm 1989, ông quay lại phòng thí nghiệm CERN (đoạn 1980-1989 tôi nghe nói ổng nhảy việc hay sao ấy). Lúc này vấn đề truy cập dữ liệu phân tán thậm chí còn khó khăn hơn nên ông lại phải mò mẫm vào cái chương trình Enquire năm nào.
Năm 1990, khi vấn đề càng trầm trọng hơn với dự án chia sẻ thông tin cho các nhóm cộng tác làm việc đang phân tán ở nhiều khu vực địa lý khác nhau, ông bắt đầu đề xuất ra các ý tưởng sơ khai của cái World Wide Web (gọi tắt là Web) với các yếu tố cốt lõi như Web Browser, Web Server, HTTP, HTML và URL mà ngày nay đã trở nên quá quen thuộc.
#2. Thành phần chính để Web hoạt động
Về cơ bản, bạn phải có mấy thứ sau:
Web Server: Máy chủ lưu trữ trang web hay ứng dụng bạn muốn truy cập.
Web Browser: Trình duyệt Web ví dụ như MS Edge, Firefox, Chrome
Web Client: Máy khách – Thiết bị kết nối mạng sử dụng Web Browser để truy cập dữ liệu/ ứng dụng trên Web Server. Nói cho dễ hiểu là laptop hay điện thoại của bạn đấy.
Ngoài 3 cái yếu tố chính nói trên, bạn cần thêm một đám thuộc mảng “hậu cần” quan trọng sau.
#2.1 Internet
Hiểu đơn giản kiểu như hệ thống giao thông để vận chuyển hàng hóa. Nhưng “hàng” ở đây là thông tin. Hiểu phức tạp hơn tí thì nó là mạng lưới liên kết của các thiết bị trên toàn thế giới thông qua hệ thống cáp, Router (thiết bị định tuyến), tháp tín hiệu, vệ tinh…Các thiết bị trên Internet sẽ kết nối với nhau thông qua giao thức TCP/IP và mỗi thiết bị sẽ được xác định thông qua địa chỉ IP của nó.
Bạn có thể truy cập Giải ngố địa chỉ IP (Internet Protocol address) – Phần 1: 3 điều quan trọng nhất cần phải biết nếu muốn xem kỹ hơn tí về cái IP này.
#2.2 TCP/IP Protocol
Bộ giao thức TCP/IP thần thánh được dùng để xác định cách mà dữ liệu được truyền tải trên Internet và đây cũng là giao thức trao đổi qua lại giữa Web Server và Web Client thông qua mạng Internet. Bạn có thể hiểu đơn giản cái này kiểu như các quy định về thủ tục trong quá trình giao, nhận và vận chuyển hàng hóa thông thường ấy.
#2.3 Domain Name System – DNS
DNS là hệ thống phân giải tên miền với một trong những chức năng quan trọng là chuyển cái tên miền thành địa chỉ IP. Một số điểm bạn cần lưu ý như sau:
– Vì sao cần cái này: Vì người ta dễ nhớ “google.com” hay “genk.vn” hơn các con số trong địa chỉ IP
– Domain Name (Tên miền) hiểu đơn giản là cái tên của trang Web bạn truy cập đấy. Ví dụ “google.com” hay “genk.vn”
– DNS Server (Máy chủ DNS) có trách nhiệm cao cả là trả lời cho bạn biết cái tên miền “google.com” hay “genk.vn” ứng với địa chỉ IP nào.
Lưu ý: Trong ví dụ trên tôi đang dùng DNS Server của Google (8.8.8.8) để xác định địa chỉ IP của tên miền “google.com” hay “genk.vn”. Kết quả ứng với “google.com” là cái đống địa chỉ IPv4 74.125.24.x (2404:6800:4003:c03::8b là địa chỉ IPv6). Kết quả ứng với “genk.vn” là 222.255.239.73.
#2.4 Uniform Resource Locator – URL
Đây là cách để xác định một trang Web hay các vị trí khác nhau trên một trang Web cụ thể. Xét cái URL https://www.dummytip.com/category/network/ để bạn dễ hình dung như sau:
– Protocol (giao thức): HTTP (liên quan đến HTTPS tôi sẽ nói sau nhé)
– Domain Name (tên miền): dummytip.com
– Path (đường dẫn): category/network/. Phần path này nếu để trống bạn sẽ có cái địa chỉ của một trang Web đơn thuần.
#2.5 Hypertext Transfer Protocol – HTTP
Tên chuẩn cmn mực là Giao thức truyền tải siêu văn bản. Nghe tên là đã biết thể loại thần thánh cao siêu rồi. Mục tiêu cơ bản là xác định cách nói chuyện giữa Client và Server. Chữ Hypertext ý muốn chỉ đến tập hợp của các văn bản chứa hyperlink (siêu liên kết)
#2.6 HyperText Markup Language – HTML
HTML là ngôn ngữ dùng để xây dựng Web thông việc sử dụng code, tag để xác định cách hiện thị Web trên Web Browser.
#3. Internet và Web
Do tính phổ biến của Web trên Internet nên có thể bạn cảm thấy hai cái này là một. Tuy nhiên, tôi nghĩ cần nhấn mạnh các điểm khác biệt cơ bản sau của Internet và Web.
Stt. | Internet | Web |
1 | Bản chất là hạ tầng phần cứng | Bản chất là dịch vụ phần mềm |
2 | Xác định thông qua IP | Xác định thông qua URL |
3 | Ngoài Web, Internet còn hỗ trợ các thứ khác như email, tin nhắn hay truyền tải file | Muốn sống thì phải có Internet |
#4. Cái gì xảy ra khi bạn nhập địa chỉ của một trang Web vào Web Browser và Enter?
Chi tiết thì có thể hơi rối rắm nhưng bạn có thể hình dung qua 4 bước đơn giản sau:
– Bước 1: Web Browser tìm đến DNS Server để phân giải tên miền thành địa chỉ IP của Web Server
– Bước 2: Web Browser gửi HTTP request đến Web Server để yêu cầu lấy một bản sao của trang Web về Web Client thông qua giao thức TCP/IP
– Bước 3: Web Server chấp nhận cái HTTP request nói trên và phản hồi “OK man!” sau đó bắt đầu chuyển các mảnh dữ liệu cho Web Browser
– Bước 4: Web Browser sẽ ghép các mảnh dữ liệu lại thành trang Web hoàn chỉnh và hiển thị cho Web Client
#4. Deep Web và Dark Web
Từ đầu đến giờ, tôi chủ yếu đề cập thứ gọi Surface Web – hướng đến việc phục vụ công chúng và đa phần sẽ được công cụ tiềm kiếm như Google, Bing lập chỉ mục. Tuy nhiên, ngoài thể loại phổ biến này, vẫn còn có 2 thể loại khác như sau.
#4.1 Deep Web
Mặc dù ít người lưu ý tuy nhiên Deep Web thật sự là tảng băng chìm với khối lượng áp đảo Surface Web. Deep Web thường bao gồm các thể loại mang tính cá nhân hoặc độc quyền (ví dụ dữ liệu nghiên cứu) hay tài liệu mật của chính phủ. Như vậy về nguyên lý bạn có thể nghĩ là Deep Web hướng đến đối tượng cá nhân hay các nhóm/ hội kín vậy.
#4.2 Dark Web
Cũng tương tự như Deep Web, Dark Web khá xa lạ với phần lớn người dùng. Người ta vẫn đang tranh cãi về định nghĩa 2 thể loại này nhưng trên quan điểm cá nhân tôi nghĩ Dark Web là phần “sâu nhất” của đám Deep Web, nơi mà vấn đề ẩn danh là yếu tố sống còn.
Dark Web có thể dịch một cách thô … bỉ ổi là “Web đen”, cái tên có thể hướng ngay suy nghĩ của bạn đến phim xxx các thể loại. Tuy nhiên, cái này chỉ đúng một phần vì Dark Web có thể bao gồm nội dung xxx thuộc dạng vi phạm pháp luật (kể cả ở những nước chấp nhập ngành công nghiệp sản xuất phim tươi mát, còn ở Việt Nam thì khỏi bàn rồi). Bên cạnh thể loại này, còn một số món “kịch độc” khác như:
– Buôn ma túy, vũ khí;
– Khủng bố;
– Diễn đàn trao đổi của hacker mũ đen
Với bản chất đó nên vấn đề ẩn danh là yếu tố hàng đầu để sinh tồn trong môi trường Dark Web và hiển nhiên bạn không thể dùng những cách như “Incognito mode” của Chrome để truy cập vào. Để đi vào vùng đất hoang dã này bạn cần phải có một số công cụ chuyên dụng như Tor mới có thể truy cập (Bạn có thể xem thêm thông tin qua sê-ri về Tor như tôi đã giới thiệu).
Mặc dù tiềm ẩn khá nhiều nguy hiểm nếu người dùng không nhận thức rõ mỗi hành động của mình khi lang thang trong khu vực “đen tối” này, tuy nhiên không phải mọi hoạt động trong Dark Web đều là xấu. Một số tình huống vẫn có thể hướng đến mục đích tốt như:
– Hoạt động của cảnh sát chìm để thâm nhập thế giới ngầm của tội phạm;
– Các nhà nghiên cứu bảo mật thu thập thông tin hữu ích trên các diễn đàn về các vụ hack hoặc các lỗi bảo mật Zero-day (cái Zero-day này tôi xin bàn trong một chủ đề riêng nhé)
Tôi dự định sẽ viết kỹ hơn về chủ đề Dark Web trong một bài riêng. Tuy nhiên, như đã nói trên, việc lang thang vào Dark Web mà chưa trang bị các kiến thức và kỹ năng cần thiết thì giống như “tay không bắt cướp”. Để tôi suy nghĩ kỹ hơn rồi cập nhật tình hình sau vậy.
1 thought on “Giải ngố WWW – Phần 1: Nguyên lý hoạt động của World Wide Web và thế giới ngầm Dark Web”