Câu hỏi phỏng vấn Data Scientistt

15 Các câu hỏi phỏng vấn Data Scientistt được chia sẻ bởi các ứng viên

Câu hỏi phỏng vấn Data Science về chuyên môn

Câu hỏi 1: 'Data science' là gì?

Data Science (Khoa học dữ liệu) là một dạng phương pháp luận được sử dụng để trích xuất và tổ chức các dữ liệu và thông tin khác nhau từ các nguồn dữ liệu khổng lồ (cả có cấu trúc và không có cấu trúc).

Cách thức hoạt động của dạng khoa học này là nó sử dụng các thuật toán khác nhau và toán học ứng dụng để trích xuất kiến thức, thông tin hữu ích và sắp xếp nó theo cách có ý nghĩa và đưa ra một số cách sử dụng.

Câu hỏi 2: Khác nhau giữa 'Data Science' và 'big data' là gì?

Chắc chắn đây là một trong những câu hỏi phỏng vấn Data Science khó trả lời hơn, rất nhiều người không diễn đạt được sự khác biệt rõ ràng. Điều này chủ yếu là do thiếu thông tin xung quanh chủ đề.

Tuy nhiên, chính câu trả lời rất đơn giản - vì thuật ngữ "dữ liệu lớn" (big data) ngụ ý khối lượng dữ liệu và thông tin khổng lồ, nó cần một phương pháp cụ thể để phân tích. Do vậy, dữ liệu lớn là thứ mà khoa học dữ liệu (Data Science) phân tích.

Câu hỏi 3: 'Data scientist' và 'data analysist' khác nhau như thế nào?

Mặc dù đây cũng là một trong những câu hỏi phỏng vấn Data Science cơ bản, các thuật ngữ vẫn thường có xu hướng lẫn lộn.

Nhà khoa học dữ liệu (Data Scientist) khai thác, xử lý và phân tích dữ liệu. Họ quan tâm đến việc cung cấp các dự đoán cho doanh nghiệp về những vấn đề doanh nghiệp có thể gặp phải.

Nhà phân tích dữ liệu (Data Analysist) giải quyết các vấn đề kinh doanh không được hỗ trợ thay vì dự đoán chúng. Họ xác định các vấn đề, thực hiện phân tích thông tin thống kê và ghi lại mọi thứ.

Câu hỏi 4: Đâu là những tính năng căn bản đại diện cho dữ liệu lớn?

Vừa rồi chúng ta đã đề cập đến các định nghĩa, chúng ta có thể chuyển sang các câu hỏi phỏng vấn Data Science cụ thể. Tuy nhiên, hãy nhớ rằng bạn sẽ nhận được các câu hỏi phỏng vấn nhà khoa học dữ liệu, nhà phân tích và dữ liệu lớn. Lý do tại sao là bởi vì tất cả các phân nhánh nhỏ hơn này đan xen với nhau.

Năm danh mục đại diện cho dữ liệu lớn và chúng được gọi là “5V”:

Giá trị (Value);
Đa dạng (Variety);
Vận tốc (Velocity);
Tính xác thực (Veracity);
Âm lượng (Volume).

Tất cả các thuật ngữ này tương ứng với dữ liệu lớn theo cách này hay cách khác.

Câu hỏi 5: 'recommender system' là gì?

Đây là một loại hệ thống được sử dụng để dự đoán mức độ xếp hạng của người dùng đối với một số đối tượng cụ thể (phim, nhạc, hàng hóa, v.v...). Không cần phải nói, có rất nhiều công thức phức tạp liên quan đến một hệ thống như vậy.

Câu hỏi 6: Thử A/B là gì?

Mặc dù thử A/B có thể được áp dụng trong nhiều lĩnh vực khác nhau, nhưng nó cũng là một trong những câu hỏi phỏng vấn cho data scientist nổi bật hơn cả. Vậy đó là gì?

Thử A/B là một hình thức thử nghiệm được thực hiện để tìm ra phiên bản của cùng một thứ đáng sử dụng hơn cho mục đích đạt kết quả mong muốn.

Ví dụ, nói rằng bạn muốn bán táo. Bạn không chắc loại táo nào - đỏ hay xanh - khách hàng của bạn sẽ thích hơn. Vì vậy, bạn thử cả hai - đầu tiên bạn cố gắng bán những quả táo đỏ, sau đó là những quả xanh. Sau khi hoàn tất, bạn chỉ cần tính toán xem cái nào sinh lợi nhiều hơn và thế là xong - đó là thử A/B!

Câu hỏi 7: 'selection bias' là gì?

Sai lệch lựa chọn là sai lệch được đưa ra bởi việc lựa chọn các cá thể, nhóm hoặc dữ liệu để phân tích theo cách không đạt được ngẫu nhiên thích hợp, do đó đảm bảo rằng mẫu thu được không đại diện cho quần thể dự định phân tích.

Nếu không tính đến sai lệch lựa chọn, thì một số kết luận của nghiên cứu có thể không chính xác.

Câu hỏi 8: Bạn biết gì về 'Normal Distribution'?

Dữ liệu được phân phối theo nhiều cách khác nhau với độ lệch sang trái hoặc sang phải hoặc tất cả có thể bị lộn xộn. Tuy nhiên, có khả năng dữ liệu sẽ đạt đến dạng đường cong hình chuông mà không có bất kỳ độ lệch nào sang trái hoặc sang bên phải.

Các đặc điểm của phân phối chuẩn:

Unimodal - một chế độ
Đối xứng (Symmetrical) - nửa trái và phải là hình ảnh phản chiếu
Hình chuông (Bell-shaped) - chiều cao tối đa ở mức trung bình
Mean, Mode, Median đều nằm ở trung tâm
Tiệm cận (Asymptotic)

Câu hỏi 9: Hiệu năng thống kê của độ nhạy là gì?

Đây có thể là một trong những câu hỏi phỏng vấn Data Science phức tạp hơn. Độ nhạy thường được sử dụng để xác nhận độ chính xác của một bộ phân loại (classifier), ví dụ: Logistic,Random Forest, SVC.

Độ nhạy là "Sự kiện đúng được dự đoán/Tổng số sự kiện".

Sự kiện Đúng (True Events) là những sự kiện đúng và mô hình cũng dự đoán chúng là đúng.

Việc tính toán thời vụ rất đơn giản. Công thức là Seasonalit = (Khẳng định thật-True positives)/(Khẳng định trong biến phụ thuộc thực tế).

Câu hỏi 10: Cái nào tốt hơn - dữ liệu tốt hay mô hình tốt?

Đây có thể là một trong những câu hỏi phỏng vấn dữ liệu lớn phổ biến hơn, mặc dù nó cũng thuộc loại câu hỏi phỏng vấn cho data scientist.

Câu trả lời cho câu hỏi này thực sự rất chủ quan và phụ thuộc vào từng trường hợp cụ thể. Các công ty lớn hơn có thể thích dữ liệu tốt, vì nó là cốt lõi của bất kỳ doanh nghiệp thành công nào. Mặt khác, không thể tạo ra các mô hình tốt nếu không có dữ liệu tốt.

Bạn có thể chọn theo sở thích cá nhân của mình - không có câu trả lời đúng hay sai (trừ khi công ty đang tìm kiếm cụ thể một trong hai câu trả lời).

Câu hỏi 11: Điều gì sẽ xảy ra nếu hai người dùng truy cập cùng một tệp HDFS cùng lúc?

Đây cũng là một trong những câu hỏi phỏng vấn Data Science phổ biến hơn - và nó hơi khó. Bản thân câu trả lời không khó, nhưng rất dễ kết hợp nó với cách các chương trình tương tự phản ứng.

Nếu hai người dùng đang cố gắng truy cập vào một tệp trong HDFS, người đầu tiên có quyền truy cập, trong khi người dùng thứ hai (hơi muộn hơn) bị từ chối.

Câu hỏi 12: 'cluster sampling' là gì?

Cluster sampling (Lấy mẫu theo cụm) có nghĩa là một loại phương pháp lấy mẫu. Với lấy mẫu theo cụm, nhà nghiên cứu chia tổng thể thành các nhóm riêng biệt, được gọi là cụm. Sau đó, một mẫu cụm ngẫu nhiên đơn giản được chọn từ tổng thể. Nhà nghiên cứu tiến hành phân tích dữ liệu từ các cụm được lấy mẫu.

Nhưng lưu ý khi đi phỏng vấn vị trí Data Science

Chuẩn bị Kiến thức Cơ bản

Đảm bảo bạn có kiến thức cơ bản về Machine Learning, Statistical Analysis, và các công cụ phổ biến như Python và R. Các câu hỏi về kiến thức cơ bản thường xuất hiện trong phỏng vấn DData Science.

Hiểu Vị trí và Công Ty

Nắm rõ mục tiêu và yêu cầu của vị trí Data Science mà bạn đang phỏng vấn. Nghiên cứu về công ty để hiểu về môi trường làm việc, văn hóa công ty, và dự án họ đang thực hiện.

Xây dựng Portfolios và Dự án Thực Tế

Nếu có thể, đưa ra ví dụ về các dự án Data Sciencee mà bạn đã thực hiện. Một portfolio mạnh có thể là một ấn tượng lớn trong quá trình phỏng vấn.

Kỹ năng Lập Trình

Làm việc với Python và/hoặc R là quan trọng. Hãy chuẩn bị để trình bày kỹ năng lập trình của bạn và làm rõ là bạn đã sử dụng chúng trong các dự án thực tế.

Kỹ năng Trình bày và Giao tiếp

Data Scientists cần có khả năng trình bày kết quả phân tích một cách dễ hiểu cho đồng nghiệp và các bên liên quan. Hãy chuẩn bị để diễn đạt ý kiến của bạn một cách rõ ràng và tổ chức.

Suy luận Logic và Giải quyết Vấn đề

Thường có các câu hỏi về khả năng suy luận logic và giải quyết vấn đề. Hãy luyện tập trước để trả lời một cách logic và có hệ thống.

Trả lời câu hỏi về Kinh nghiệm

Chuẩn bị câu trả lời cụ thể về kinh nghiệm làm việc trong các dự án Data Science trước đây, bao gồm cả thành công và thất bại. Sự chân thành và khả năng học hỏi từ kinh nghiệm là quan trọng.

Thái độ Tìm kiếm và Sáng tạo

Data Science thường đòi hỏi sự sáng tạo và khả năng tự tìm kiếm giải pháp. Hãy thể hiện thái độ tích cực và khả năng tìm kiếm giải pháp trong phỏng vấn.

Hỏi Câu hỏi

Khi bạn có cơ hội, hãy đặt câu hỏi về vị trí công việc, đội ngũ làm việc, và dự án mà bạn sẽ tham gia. Điều này cho thấy bạn quan tâm và đã xem xét kỹ vị trí này.

Thận trọng với Câu hỏi Lương

Thường thì câu hỏi về lương nên được đặt ở giai đoạn sau khi bạn đã nhận được lời mời làm việc hoặc khi cuộc phỏng vấn đã tiến triển đến giai đoạn cuối. Trước đó, tập trung vào thể hiện khả năng và giá trị của bạn đối với công ty.