Kaggle là 1 trong những xã hội tuyệt đối của những bên công nghệ tài liệu. Cá nhân tôi cũng có thể có một thời hạn đề xuất với tsi mê gia những cuộc thi bên trên này. Tôi học được tự những người đùa làm việc kaggle về các kỹ năng và phương pháp cách xử lý nhiều hơn thế nữa tất cả đều gì tôi học được trước đó. Tuy nhiên, sau một thời gian, tôi quyết định dành chút ít thời gian trên kaggle hơn cầm vì chưng tmê say gia sâu vào những cuộc thi như trước đó.

Bạn đang xem: Kaggle là gì

Đang xem: Kaggle là gì

Có một vài nguyên nhân nhằm tôi chỉ dẫn ra quyết định này.

Tiêu chí 1-1 giản

Các các bạn hẳn đang không còn xa lạ với hàm mục tiêu trong machine learning. Các cuộc thi trên kaggle cũng chỉ có một phương châm duy nhất chính là tối tđọc hóa giá trị của loss function.

*

*

Việc về tối tđọc hàm kim chỉ nam là đúng, nhưng lại không đủ. Trong thực tiễn ngoài quan tâm tới năng lực dự đoán thù của mô hình, họ còn phải quyên tâm cho tới năng lực xúc tiến quy mô kia, kĩ năng tương xứng với khối hệ thống hiện tại, thời gian tính tân oán, khả năng giải thích… Những tiêu chí này trọn vẹn ko được chuyển vào tiêu chuẩn của các cuộc thi trên kaggle.

Hãy rước ví dụ về thuật toán thù nhắc nhở giành thành công trong cuộc thi mà Netflix tổ chức.

A year into lớn the competition, the Korbell team won the first Progress Prize with an 8.43% improvement. They reported more than 2000 hours of work in order lớn come up with the final combination of 107 algorithms that gave them this prize.

Well, đấy là một thuật toán giỏi, cơ mà hãy tưởng tượng bạn sẽ vận dụng thuật toán thù này ra làm sao mang đến con số rating, user càng ngày càng tăng? Nó quá tinh vi để mang vào vận dụng.

cố gắng tập trung vào engineering

Điều này có một phần nguyên do vị sự dễ dàng của tiêu chuẩn trên. Các phương pháp thắng lợi cuộc thi bên trên kaggle từ từ trnghỉ ngơi buộc phải hơi tiêu cực: phần lớn feature, các Mã Sản Phẩm, ensemble chúng lại. Nếu vấn đề này ko giúp đỡ bạn tăng thứ hạng? Sử dụng năng lượng tính tân oán để áp dụng nhiều feature hơn, những mã sản phẩm hơn. Điều này sẽ không khác gì chúng ta cố gắng phát hành một blackbox kếch xù cùng cầu mong bọn chúng cho kết quả tốt.

Hãy rước ví dụ về cuộc thi trang chính credit.

Xem thêm:

*

*

Với cá nhân tôi, một fan từng làm vào nghành bank — tài chính, tôi kì vọng có khá nhiều kernel đem lại insight thú vị về hành động vay với chi tiêu của công ty nuốm bởi pipeline cùng với hàng loạt feature và mô hình nlỗi bên trên.

Với riêng cuộc thi của home page credit, cá thể tôi thấy rằng roc-auc = 0.81 là cực tốt và không có chức năng cao không chỉ có vậy. Các phương thức nhỏng tăng lên feature, thêm tế bào hình… nhằm kì vọng tăng lên 0.một điểm nữa chỉ nên ước may mắn.

Lý bởi là gì? Tôi đang debug quy mô cùng so sánh tài liệu, đến một ngưỡng các bạn sẽ cần yếu biệt lập được về khía cạnh dữ liệu sự không giống nhau của một khoản vay mượn default với non-default. Với các features bây chừ, mô hình cũng không quá chắc chắn là về dự đân oán trong vấn đề phân loại. Vì vậy, các nỗ lực quan trọng đề xuất triệu tập vào bài toán tích lũy thêm các features bạo dạn chũm vì tăng độ phức hợp của quy mô. Nhà công nghệ tài liệu, khi đó, phải phụ thuộc sự đặc biệt quan trọng của vươn lên là số so với unique phân một số loại của mô hình nhằm gợi nhắc về mọi biết tin nên tích lũy thêm.

Thuật toán trên kaggle không mới

Thực ra rất nhiều thuật tân oán new sẽ ra đời sống phần nhiều bài bác báo khoa học. Kaggle chỉ nên vị trí áp dụng cùng kiểm hội chứng xem các thuật tân oán này có hữu dụng không vào thực tế.

Vì vậy, bây giờ tôi thích hợp với một trong những giải pháp tiếp cận kết quả cơ mà bản thân biết so với từng bài toán thù và chỉ coi kaggle là vị trí xem thêm những kĩ thuật thực hành thực tế bổ sung cập nhật. Một số bài bác tân oán với thuật toán nhưng tôi nhận định rằng yêu cầu sử dụng:

Đối với bài toán thù phân một số loại với input đầu vào là tabular data: tree bagging và tree boosting. Nếu bạn có nhu cầu quy mô hoàn toàn có thể diễn giải, nên lựa chọn tree bagging. Nếu mong mỏi chất lượng dự đoán thù, tree boosting là sàng lọc phải chăng.Bài toán thù hồi quy cùng với đầu vào là tabular data: fully connected net hoặc tree boosting đã làm cho cực tốt.Bài toán dự đoạn chuỗi thời gian: RNN có thể cách xử trí được sự việc.Đối với bài tân oán phân các loại vnạp năng lượng phiên bản, hình ảnh: transfer learning vẫn mang về kết quả cực tốt.

Thắng một cuộc thi bên trên kaggle không giúp ích nhiều đến các bước của tôi

*

Source: From the paper “Hidden Technical Debt in Machine Learning System” by D. Sculley et al

Nlỗi các bạn thấy làm việc hình trên, hành trình của tài liệu trường đoản cú Lúc có mặt cho đến khi đã đạt được một insight hữu ích phải không hề ít quy trình cùng sức lực lao động. Lúc đã có được một bộ tài liệu sạch đẹp thì câu hỏi training quy mô để có được dự đân oán đầy đủ giỏi thuở đầu (theo cá nhân tôi) là không quá nặng nề. Việc chiến thắng một cuộc thi trên kaggle chỉ chứng tỏ rằng tôi giải quyết và xử lý được một trong những phần cực kỳ bé dại trong quá trình bên trên. Vì vậy nó không hỗ trợ ích rất nhiều mang đến quá trình của tớ.

Hãy dành thời gian mang đến mọi sản phẩm công nghệ đặc biệt khác

Người làm về dữ liệu không tính hiểu biết về điều khoản, ngôn từ lập trình sẵn hay thuật tân oán machine learning còn đề xuất giỏi không hề ít tài năng mượt khác như hiểu biết về ngành, khả năng giao tiếp, năng lực thuyết trình, tài năng đặt câu hỏi, kỹ năng so với vấn đề…

Vì vậy, hãy chắc hẳn rằng rằng bạn dành thời hạn nhằm cải thiện toàn bộ những kĩ năng quan trọng cố vì quá tập trung vào luật, ngôn ngữ hay thuật toán.

Sau tất cả

Kaggle vẫn hết sức tuyệt!

Những gì tôi học tập được về data science từ kaggle là tương đối nhiều. Tuy nhiên những cuộc thi bên trên kaggle chỉ phản ánh một trong những phần cực kỳ nhỏ gần như gì trong thực tiễn công việc của các tín đồ làm cho về tài liệu. Vì vậy, hãy dành thời gian và sự quyên tâm hợp lí trên kaggle để sở hữu thời hạn triển khai xong tốt toàn bộ kĩ năng của bản thân.

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *