Khoa học tự nhiên

Công cụ tìm DNA | Google của bộ gen mở ra kỷ nguyên mới

Một kỷ nguyên mới của công cụ tìm DNA

Ngày nay, các bệnh di truyền hiếm và đột biến đặc hiệu của khối u đã có thể được phát hiện nhờ công nghệ giải trình tự DNA. Đây là một bước ngoặt từng làm thay đổi nghiên cứu y sinh học cách đây hàng thập kỷ.

Sự ra đời của các công nghệ giải trình tự thế hệ mới (next-generation sequencing) đã tạo nên làn sóng đột phá. Điển hình là việc giải mã nhanh chóng và theo dõi toàn cầu bộ gen SARS-CoV-2 trong giai đoạn 2020–2021.

Song song đó, ngày càng nhiều nhà khoa học công khai dữ liệu giải trình tự của mình. Dẫn đến sự bùng nổ dữ liệu sinh học được lưu trữ trong các cơ sở dữ liệu khổng lồ.

Những cơ sở này gồm có:

  • Sequence Read Archive (SRA) của Mỹ và
  • European Nucleotide Archive (ENA) của châu Âu.

Tổng dung lượng hiện nay đã vượt mốc 100 petabyte. Tương đương lượng văn bản của toàn bộ Internet, trong đó 1 petabyte bằng 1 triệu gigabyte.

công cụ tìm DNA – metagraph

Trước đây, để tìm kiếm và so sánh dữ liệu trong những kho lưu trữ khổng lồ này, các nhà khoa học cần hệ thống máy tính cực mạnh, khiến việc tìm kiếm toàn diện gần như bất khả thi.

Các nhà nghiên cứu tại ETH Zurich vừa công bố một giải pháp đột phá cho vấn đề này.

>>>> Vấn đề nhứt nhói về siêu dẫn đang dần được khắc phục!

Tìm kiếm toàn văn thay vì tải dữ liệu

Nhóm nghiên cứu đã phát triển MetaGraph. Đây là một công cụ giúp tối ưu và tăng tốc quá trình tra cứu dữ liệu gen.

Thay vì tải toàn bộ tệp dữ liệu, MetaGraph cho phép tìm kiếm trực tiếp trong dữ liệu DNA hoặc RNA thô. Việc này giống như ta dùng công cụ tìm kiếm trên Internet.

Tất cả những gì cần làm là nhập một trình tự gen vào ô tìm kiếm. Trong vài giây hoặc vài phút, ta có thể biết chính xác trình tự đó xuất hiện ở đâu trong các cơ sở dữ liệu toàn cầu.

“Đây là một dạng Google cho DNA”. Giáo sư Gunnar Rätsch, chuyên gia khoa học dữ liệu tại Khoa Khoa học Máy tính, ETH Zurich, giải thích.

Trước đây, các nhà khoa học chỉ có thể tìm theo mô tả dữ liệu (metadata). Và phải tải toàn bộ tệp để truy cập trình tự thô. Việc này vừa tốn thời gian, vừa tốn chi phí.

Theo nhóm tác giả, MetaGraph còn có hiệu suất đáng kinh ngạc. Toàn bộ dữ liệu sinh học công khai có thể được lưu chỉ trong vài ổ cứng. Mỗi truy vấn lớn chỉ tốn khoảng 0,74 USD cho mỗi megabase.

Nhờ khả năng tìm kiếm nhanh và chính xác, MetaGraph có thể thúc đẩy nghiên cứu y sinh học. Đặc biệt trong việc phát hiện mầm bệnh mới. Cũng như phân tích gen kháng kháng sinh hoặc thậm chí tìm kiếm virus có lợi (bacteriophage). Virusn này giúp tiêu diệt vi khuẩn gây bệnh tiềm ẩn trong cơ sở dữ liệu khổng lồ này.

>>>> Liệu pháp junk DNA giúp tăng cường tác dụng chữa ung thư

Nén dữ liệu gấp 300 lần trong công cụ tìm DNA

Trong nghiên cứu của nhóm đã trình bày cơ chế hoạt động của MetaGraph. Công cụ này tổ chức và nén dữ liệu di truyền bằng mô hình đồ thị toán học tiên tiến. Cho phép cấu trúc thông tin một cách hiệu quả, tương tự như bảng tính lưu giá trị.

“Về mặt toán học, nó giống như một ma trận khổng lồ với hàng triệu cột và hàng nghìn tỷ hàng.” Rätsch cho biết.

Việc tạo chỉ mục (index) cho dữ liệu lớn là kỹ thuật quen thuộc trong khoa học máy tính. Điểm đặc biệt của MetaGraph là nó liên kết dữ liệu thô với metadata và đạt tỷ lệ nén khoảng 300 lần. Tương tự như việc tóm tắt một cuốn sách mà vẫn giữ nguyên nội dung cốt lõi.

Công nghệ siêu nén của metagraph

“Chúng tôi đang đẩy giới hạn của công nghệ. Việc này giúp giữ dữ liệu gọn nhất mà không mất thông tin cần thiết.” Tiến sĩ André Kahles, thành viên nhóm Tin sinh học Y học (Biomedical Informatics Group) của ETH Zurich, chia sẻ.

So với các công cụ tìm kiếm DNA khác đang được phát triển. MetaGraph có khả năng mở rộng linh hoạt. Càng nhiều dữ liệu được truy vấn, công cụ càng tối ưu hiệu suất mà không cần thêm tài nguyên tính toán lớn.

>>>> Tìm hiểu cấu trúc protein | Tự học tin sinh học đơn giản!

Hơn một nửa dữ liệu toàn cầu đã sẵn sàng

Ra mắt lần đầu năm 2020, MetaGraph liên tục được cải tiến. Hiện đã mở truy cập công khai tại địa chỉ https://metagraph.ethz.ch/search. Công cụ này đã lập chỉ mục hàng triệu trình tự DNA, RNA và protein từ virus, vi khuẩn, nấm, thực vật, động vật và con người.

Hiện nay, gần 50% dữ liệu giải trình tự toàn cầu đã được tích hợp. Và nhóm dự kiến sẽ hoàn thiện trong năm nay.

Vì MetaGraph là mã nguồn mở, nó cũng có thể thu hút sự quan tâm của các công ty dược phẩm trong việc quản lý khối lượng dữ liệu nghiên cứu khổng lồ.

Tiến sĩ Kahles cho rằng:

“Trong tương lai, công cụ tìm kiếm DNA này có thể phổ biến đến mức người dùng cá nhân cũng có thể sử dụng – giống như cách Google từng khởi đầu mà không ai ngờ tới. Nếu công nghệ giải trình tự gen tiếp tục phát triển nhanh chóng, có thể một ngày nào đó chúng ta sẽ dùng MetaGraph để nhận dạng chính xác cả những loài cây trên ban công của mình.”

Nghiên cứu được đăng trên tạp chí Nature, xuất bản ngày 8/10/2025

>>>> Xem thêm những bài viết y học thú vị khác ở đây nè!!!

>>>> Tổng hợp nano kim cương như thế nào?

Ra là thế

Chia sẽ những gì góp nhặt được trong cuộc sống. Mỗi ngày trôi qua đều để lại gì đó, điều quan trọng là bạn có chú ý đến nó hay không. “Bạn có hai cách để sống cuộc sống của mình. Một là nghĩ rằng trên đời này chẳng có điều gì là phép màu. Hai là nghĩ rằng mọi thứ đến với bạn đều là phép màu.” – Albert Einstein.

Recent Posts

Tổng hợp kim cương | Bước tiến mới trong khoa học vật liệu

Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…

4 weeks ago

Bán dẫn siêu dẫn | Bước đột phá mới trong công nghệ siêu dẫn

Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…

4 weeks ago

Kiểm định nhị thức | Series thống kê cho KHDL bài 18

Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…

2 months ago

Đi bộ mỗi ngày – Bí quyết sống thọ không tốn kém

Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…

2 months ago

Phụ nữ sống thọ | Tiết lộ khoa học vì sao phụ nữ thọ hơn nam giới

Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…

2 months ago

Chia nhỏ để thành công | bí kíp sống sót của người bận rộn

Chia nhỏ để thành công, từng bước một thì chắc chắn sẽ được. Người ta…

2 months ago

This website uses cookies.