Thay đổi mô hình bằng GCP. Thúc đẩy phát triển nghiên cứu làm hài lòng người chăn nuôi và bò sữa bằng cách sử dụng Máy học logic tốc độ cao

Tokyo University of Science Logo

Khoa Kỹ thuật quản lý thuộc Phòng Khoa học và Công nghệ, Đại học Khoa học Tokyo (1) hợp tác với Hiệp hội đua ngựa Trung Ương Nhật Bản JRA (2) đang tiến hành dự án nghiên cứu phát triển sữa bằng AI (trí tuệ nhân tạo).

(1) 東京理科大学 理工学部 経営工学科 = Tokyo University of Science, Faculty of Science and Technology, Department of Industrial Administration (https://www.tus.ac.jp/) (2) JRA日本中央競馬会 = Japan Racing Association (http://www.jra.go.jp/)

Dự án nghiên cứu thực hiện thu thập, quản lý và phân tích các thành phần của sữa từ bò sữa, nhằm tạo ra một viễn cảnh tốt đẹp hơn cho cả người, gia súc và giúp đỡ những người chăn nuôi bò sữa trong tương lai gần. Google Cloud Platform (GCP) được áp dụng để quản lý và phân tích lượng dữ liệu khổng lồ được sử dụng trong dự án nghiên cứu này.

Nhiều ý kiến cho rằng hiệu suất chi phí đã được cải thiện bằng cách sử dụng GCP. Trong lần nói chuyện này, chúng tôi đã được nghe Phòng nghiên cứu Nishiyama (3) chia sẻ về nền tảng và lợi thế của việc áp dụng GCP, cũng như nhận xét về sự hỗ trợ từ Cloud Ace.

(3) 西山研究室 = Nishiyama Laboratory

Bối cảnh sử dụng GCP

Khoa Kỹ thuật quản lý, Đại học Khoa học Tokyo đang nghiên cứu với sự hỗ trợ của JRA về chủ đề tăng cường khả năng truy xuất nguồn gốc của bê và bò lấy sữa. Đây là một trong những dự án liên quan đến JRA sử dụng AI (trí tuệ nhân tạo) để phát triển sữa. Với cách làm truyền thống, người chăn nuôi bò sữa thường gặp khó khăn trong việc theo dõi mối quan hệ huyết thống trong đàn bò. Việc quản lý sức khỏe của bò sữa cũng không được hệ thống hóa hợp lý bởi những người chăn nuôi bò sữa.

Để giải quyết vấn đề trên, nghiên cứu lần này tập trung vào việc thu thập dữ liệu bò sữa và phân tích dữ liệu bằng AI.

Số lượng người nông dân chăn nuôi bò sữa tại Nhật đang giảm dần qua từng năm. Do đó, việc nhân giống và nuôi dưỡng những con bò khỏe mạnh có năng suất cho sữa cao là thiết yếu không thể bàn cãi. Mục tiêu lớn nhất của dự án là, người chăn nuôi bò ứng dụng phổ biến các quy tắc được tạo ra dựa trên dữ liệu tích lũy về cách tạo ra những con bò sữa tốt và cách nuôi chúng.

Khái niệm “khả năng truy nguyên nguồn gốc” (“traceability”) thường được nhắc đến trong dự án lần này là một từ ghép kết hợp giữa “truy dấu" (“trace”) và "khả năng" ("ability"). Bằng cách thu thập dữ liệu theo dõi mối quan hệ cha mẹ và con cái vào trong các chuỗi khối (blockchain) cực kỳ khó can thiệp và sử dụng chúng trong ngành công nghiệp sữa bò, chúng tôi đang cố gắng nâng cao chất lượng và sức cạnh tranh cho thị trường sữa.

Hiện tại, chúng tôi đang thu thập dữ liệu về 5.000 con bò sữa, theo như mục tiêu đã đề ra trong 3 năm. Tuy nhiên, có khoảng 1,3 triệu con bò sữa ở Nhật Bản. Vấn đề là thu thập lượng dữ liệu khổng lồ này ở đâu và làm thế nào để phân tích nó. Đặc biệt, việc phân tích đòi hỏi một lượng lớn tài nguyên máy tính, vì vậy chúng tôi quyết định sử dụng môi trường GCP.

Cấu hình hệ thống và quá trình thiết lập

Phương pháp của chúng tôi là, thay vì gắn cảm biến để thu thập thông tin của mỗi cá thể bò, chúng tôi sử dụng robot chăn bò và robot vắt sữa mà gần đây mới được áp dụng trong các trang trại bò sữa. Dữ liệu về bò cái được tập hợp từ hai loại robot này và được tiến hành phân tích cho đến khi đạt được kết quả cuối cùng cho phép theo dõi hàng loạt.

Dữ liệu thành phần chiết xuất từ ​​sữa bò được thu thập nhờ máy tính điều khiển robot (do nhà sản xuất robot cung cấp) được đặt trong chuồng bò của mỗi trang trại bò sữa. Dữ liệu này được chuyển đến máy tính của Đại học Khoa học Tokyo, và sau đó được phân tích bằng các công cụ Máy học logic tốc độ cao được xây dựng trên môi trường GCP.

Tại thời điểm bắt đầu, việc kiểm nghiệm được tiến hành ở 6 khu vực (6 region) của GCP, gồm 2 ở châu Âu, 3 ở khu vực châu Á và 1 ở Hoa Kỳ. Từ tháng 2 năm 2019, 7 khu vực (7 region ) của GCP nữa, gồm 5 ở Nhật Bản và 2 ở Singapore cũng tham gia vào hoạt động này.

GCP Archicture: Parallel Computation (Overriew)

Hiệu quả sử dụng GCP

Thực tế thì chúng tôi đã từng thử thiết lập bên trong trường đại học một server rack dành riêng cho việc phân tích với 30 máy tính được kết nối. Nhưng vì hệ thống này tỏa rất nhiều nhiệt, nên không chỉ mùa hè mà cả mùa đông chúng tôi đều phải chạy máy điều hòa để tản nhiệt. Theo đó, chúng tôi nhận ra rằng việc tăng số lượng máy tính sẽ khó khả thi.

Mặt khác, GCP có ưu điểm vượt trội là cho phép vay mượn tài nguyên máy tính khi cần thiết và trả lại chúng khi không cần dùng nữa. Không chỉ vậy, ưu điểm lớn nhất của GCP chính là tích lũy tài nguyên hoạt động trong thời gian ngắn đến kinh ngạc, nhờ việc phân tích dữ liệu sử dụng các công cụ Máy học có tính logic.

Trước đây, người ta cho rằng các công cụ Máy học logic có nhược điểm là độ trễ lớn của thời gian “học”. Với tình trạng xử lý một yêu cầu phân tích trên 1 máy tính mất ít nhất 48 ngày, trên 10 máy tính nhanh gấp 5 lần, trên 30 máy tính nhanh gấp 10 lần, chúng tôi không thể đạt được khả năng cần có. Tuy nhiên, nhờ phương thức phân tán thông qua việc sử dụng trí tuệ nhân tạo, chúng tôi đã thành công trong việc tăng tốc khoảng 42 lần với 30 CPU, thậm chí hơn 180 lần với 180 CPU. Do vậy, chúng tôi nhận thấy rằng càng tận dụng GCP, thì tốc độ phân tích càng nhanh và hiệu quả sử dụng chi phí càng cao. Đây là một sự biến đổi mô hình vô cùng quan trọng.

Hiện tại, chúng tôi cần một lượng lớn tài nguyên máy tính cần “học", nhưng một khi việc “học" này hoàn tất và có được thành quả, chi phí vận hành sẽ giảm xuống. Chúng tôi đã xây dựng một hệ thống và tiến hành phân tích để đạt được điều trên. Trong tương lai, ngay cả khi các kết quả thu được tiến hành chuyển giao, chúng vẫn có thể được sử dụng dễ dàng bởi một tổ chức khác. Lý do chúng tôi sử dụng GCP chính là vì tính dễ sử dụng của nó.

Sự hỗ trợ từ Cloud Ace

Cloud Ace được giới thiệu bởi một nhân viên đại diện của Google khi chúng tôi yêu cầu được tư vấn lần đầu tiên. Cloud Ace đang hỗ trợ chúng tôi các nghiệp vụ thanh toán cũng như các bước chuẩn bị để thích ứng nhanh chóng với việc áp dụng GCP.

Tất nhiên, chúng tôi có tìm hiểu và so sánh dịch vụ của khoảng ba công ty khác. Có một số nơi phát sinh chi phí cố định hằng tháng bất kể chúng tôi có sử dụng dịch vụ hay không. Tuy nhiên, Cloud Ace áp dụng phương thức dùng bao nhiêu trả bấy nhiêu. Nếu bạn không sử dụng dịch vụ, bạn sẽ không phải thanh toán bất kỳ chi phí nào, nên bạn có thể nhận được sự hỗ trợ rất linh hoạt.

Định hướng tương lai

Chúng tôi mong muốn tạo ra một viễn cảnh tốt đẹp cho cả người chăn nuôi và bò sữa. Người chăn nuôi có thể giảm giờ làm việc và tăng lợi nhuận. Bò sữa thì khỏe mạnh hơn, năng suất hơn và có tuổi thọ cao hơn. Tôi không biết liệu chúng ta có nên thảo luận luôn về hạnh phúc của những con bò sữa không ..

Công cụ Máy học logic tốc độ cao là máy học có kiểu khác với trí tuệ nhân tạo (Deep Learning) được cả thế giới công nhận, vì chúng có thể phân tích nguyên nhân dẫn đến kết quả, như “khi bị bệnh thì có các triệu chứng như sau", từ đó xuất ra định dạng “rule" (quy tắc) cho phép con người dễ dàng nắm bắt kiến thức một cách trực tiếp. Những output như vậy khó có thể thu được bằng các loại trí tuệ nhân tạo như Deep Learning v.v., và chúng là cơ sở rất quan trọng để các nhà chăn nuôi bò sữa đánh giá độ tin cậy của kết quả phân tích.

Tuy nhiên, điều đáng lo ngại hiện nay là có rất ít kỹ sư trên thế giới có khả năng đối ứng Máy học. Dù vậy, với thực tế mô hình hoạt động đã và đang biến đổi nhờ GCP, chúng tôi hy vọng rằng một số kỹ thuật Máy học thực tế hơn sẽ thu hút sự chú ý, từ đó kỹ sư có thể cải thiện hệ thống của chúng tôi sẽ xuất hiện.

Đây là bản dịch của một bài báo được xuất bản bởi Cloud Ace, Inc.Có sẵn trực tuyến: GCP によるパラダイムシフト。高速論理型機械学習を用いて酪農家と乳牛を幸せにする研究開発を推進。