Bagaimana cara belajar analisis data dengan python?

Sebagian besar calon ilmuwan data mulai mempelajari Python dengan mengambil kursus pemrograman yang ditujukan untuk pengembang. Mereka juga mulai memecahkan teka-teki pemrograman Python di situs web seperti LeetCode dengan asumsi bahwa mereka harus menguasai konsep pemrograman sebelum mulai menganalisis data menggunakan Python

Ini adalah kesalahan besar karena data scientist menggunakan Python untuk mengambil, membersihkan, memvisualisasikan, dan membuat model; . Oleh karena itu, Anda harus memfokuskan sebagian besar waktu Anda untuk mempelajari modul dan pustaka dengan Python untuk melakukan tugas ini

Ikuti langkah-langkah tambahan ini untuk mempelajari Python untuk ilmu data

Konfigurasikan lingkungan pemrograman Anda

 
Notebook Jupyter adalah lingkungan pemrograman yang kuat untuk mengembangkan dan mempresentasikan proyek ilmu data

Cara termudah bagi Anda untuk menginstal Jupyter Notebook di komputer Anda adalah dengan menginstal Anaconda. Anaconda adalah Distribusi Python yang paling banyak digunakan untuk ilmu data dan sudah dimuat sebelumnya dengan semua pustaka paling populer

Anda dapat membaca posting blog berjudul "Panduan Pemula untuk Menginstal Notebook Jupyter Menggunakan Distribusi Anaconda" untuk mempelajari cara menginstal Anaconda. Saat menginstal Anaconda, pilih versi Python 3 terbaru

Setelah menginstal Anaconda, baca artikel ini di Code Academy untuk mempelajari cara menggunakan Notebook Jupyter

Pelajari hanya dasar-dasar Python

 
Code Academy memiliki kursus Python yang sangat bagus, Anda membutuhkan waktu sekitar 20 jam untuk menyelesaikannya. Anda tidak perlu memutakhirkan ke Versi Pro karena tujuan Anda hanyalah untuk membiasakan diri dengan dasar-dasar bahasa pemrograman Python

Numpy and Pandas - Sumber yang bagus untuk mempelajarinya

 
Python lambat untuk algoritme yang berat secara numerik dan menangani data dalam jumlah besar. Anda mungkin bertanya mengapa Python adalah bahasa pemrograman paling populer untuk ilmu data?

Jawabannya adalah dengan Python, mudah untuk memindahkan tugas pengolah angka ke lapisan bawah dalam bentuk ekstensi C atau Fortran. Itulah yang dilakukan Numpy dan Pandas

Pertama, Anda harus mempelajari Numpy. Ini adalah modul paling mendasar untuk komputasi ilmiah dengan Python. Numpy memberikan dukungan array multidimensi yang sangat dioptimalkan, yang merupakan struktur data paling dasar dari sebagian besar algoritme Pembelajaran Mesin

Selanjutnya, Anda harus belajar Panda. Ilmuwan data menghabiskan sebagian besar waktunya untuk membersihkan data, yang juga disebut sebagai data munging atau data wrangling

Pandas adalah pustaka Python paling populer untuk memanipulasi data. Pandas adalah sebagai perpanjangan dari NumPy. Kode dasar untuk Pandas menggunakan pustaka NumPy secara ekstensif. Struktur data primer di Pandas disebut kerangka data

Wes McKinney, pencipta Panda, telah menulis buku fantastis berjudul "Python for Data Analysis". Baca bab 4, 5, 7, 8, dan 10 untuk mempelajari Panda dan Numpy. Bab ini mencakup fitur Numpy dan Pandas yang paling sering digunakan untuk memanipulasi data

Pelajari cara memvisualisasikan data menggunakan Matplotlib

 
Matplotlib adalah paket dasar Python untuk membuat visualisasi dasar. Anda harus mempelajari cara menggunakan Matplotlib untuk membuat beberapa bagan yang paling umum seperti Bagan garis, Bagan batang, Plot sebar, Histogram, dan Plot kotak

Pustaka perencanaan bagus lainnya yang dibangun di atas Matplotlib dan terintegrasi erat dengan Panda disebut Seaborn. Pada tahap ini, saya menyarankan Anda untuk segera mempelajari cara membuat bagan dasar di Matplotlib dan tidak berfokus pada Seaborn

Saya telah menulis tutorial empat bagian tentang cara mengembangkan grafik dasar menggunakan Matplotlib

Bagian satu. Angka dasar di Matplotlib

Bagian kedua. Cara mengontrol corak dan warna gambar, seperti marker, ketebalan garis, pola garis dan menggunakan peta warna

Bagian ketiga. Anotasi, mengontrol rentang sumbu, rasio tinggi lebar, dan sistem koordinat

Bagian empat. Bekerja dengan figur yang kompleks

Anda mengikuti tutorial ini untuk memahami dasar-dasar Matplotlib

Catatan singkat, Anda tidak perlu menghabiskan terlalu banyak waktu untuk mempelajari Matplotlib karena saat ini perusahaan sudah mulai mengadopsi alat seperti Tableau dan Qlik untuk membuat visualisasi interaktif

Cara menggunakan SQL dan Python

 
Dalam organisasi, data berada dalam database. Oleh karena itu, Anda perlu mengetahui cara mengambil data menggunakan SQL dan melakukan analisis di Notebook Jupyter menggunakan Python

Ilmuwan Data memanipulasi data menggunakan SQL dan Pandas. Karena ada tugas manipulasi data tertentu yang mudah dilakukan menggunakan SQL, dan ada tugas tertentu yang dapat dilakukan secara efisien menggunakan Pandas. Saya pribadi suka menggunakan SQL untuk mengambil data dan melakukan manipulasi di Pandas

Saat ini, perusahaan menggunakan platform analitik seperti Mode Analytics dan Databricks untuk bekerja dengan Python dan SQL dengan mudah

Jadi, Anda harus tahu cara menggunakan SQL dan Python secara efisien bersama-sama. Untuk mempelajarinya, Anda dapat menginstal database SQLite di komputer Anda dan menyimpan file CSV di dalamnya dan menganalisisnya menggunakan Python dan SQL. Inilah posting blog yang luar biasa yang menunjukkan kepada Anda bagaimana melakukannya. Pemrograman dengan Database dengan Python menggunakan SQLite

Sebelum Anda membaca posting blog di atas, Anda harus memahami dasar-dasar SQL. Mode Analytics memiliki tutorial yang bagus tentang SQL. Pengantar SQL. Buka bagian BASIC SQL mereka untuk memahami dasar-dasar SQL dengan sangat baik karena setiap ilmuwan data pasti tahu cara mengambil data secara efisien menggunakan SQL

Pelajari Statistik dasar dengan Python

 
Sebagian besar calon Ilmuwan Data langsung terjun untuk mempelajari pembelajaran mesin bahkan tanpa mempelajari dasar-dasar statistik

Jangan membuat kesalahan itu karena Statistik adalah tulang punggung ilmu data. Di sisi lain, calon ilmuwan data yang mempelajari statistik hanya mempelajari konsep teoretis alih-alih mempelajari konsep praktis

Dengan konsep praktis, maksud saya, Anda harus tahu masalah seperti apa yang bisa diselesaikan dengan Statistik. Memahami tantangan apa yang dapat Anda atasi menggunakan Statistik

Berikut adalah beberapa konsep dasar Statistik yang harus Anda ketahui

Pengambilan sampel, distribusi frekuensi, Rata-rata, Median, Modus, Ukuran variabilitas, Dasar-dasar probabilitas, pengujian signifikan, deviasi standar, skor-z, interval kepercayaan, dan pengujian hipotesis (termasuk pengujian A/B)

Buku yang sangat bagus untuk mengajarkan Statistik praktis adalah “Statistik Praktis untuk Ilmuwan Data. 50 Konsep Esensial". Sayangnya, bagi pecinta Python seperti saya, contoh kode di buku ditulis dalam bahasa R. Saya akan merekomendasikan Anda untuk membaca empat bab pertama dari buku ini. Telusuri 4 bab pertama buku ini untuk memahami konsep dasar statistik yang saya sebutkan sebelumnya, abaikan contoh kodenya dan pahami saja konsepnya. Bab-bab lainnya dalam buku ini sebagian besar berfokus pada Pembelajaran Mesin. Saya akan berbicara tentang cara mempelajari Machine Learning di bagian selanjutnya

Kebanyakan orang merekomendasikan Think Stats untuk mempelajari Statistik dengan Python tetapi penulis mengajarkan fungsi kustomnya sendiri alih-alih menggunakan pustaka Python standar seperti Statsmodels untuk melakukan Statistik. Itulah alasan mengapa saya tidak merekomendasikan buku ini

Setelah ini, tujuan Anda adalah menerapkan konsep dasar yang Anda pelajari dengan Python. StatsModels adalah pustaka Python populer yang digunakan untuk membuat model statistik dengan Python. Situs web StatsModels memiliki tutorial yang bagus tentang cara mengimplementasikan konsep statistik menggunakan Python

Atau, Anda juga dapat menonton video ini oleh Gaël Varoquaux. Dia menunjukkan kepada Anda bagaimana melakukan statistik inferensial dan eksplorasi menggunakan Pandas and Stats Models

Lakukan Machine Learning menggunakan Scikit-Learn

 
Scikit-Learn adalah salah satu Perpustakaan Pembelajaran Mesin paling populer di Python. Tujuan Anda adalah mempelajari cara menerapkan beberapa algoritme pembelajaran mesin yang paling umum menggunakan Scikit-Learn

Inilah cara melakukannya

Pertama, tonton video minggu 1, 2, 3, 6, 7, dan 8 kursus Pembelajaran Mesin Andrew Ng di Coursera. Saya melewatkan bagian Neural Networks karena sebagai titik awal Anda harus fokus pada teknik Machine Learning yang paling luas

Setelah Anda selesai melakukannya, bacalah buku “Hands-On Machine Learning with Scikit-Learn and TensorFlow”. Baca saja bagian pertama buku ini (sekitar 300 halaman). Ini adalah salah satu buku Pembelajaran Mesin paling praktis yang tersedia

Dengan melakukan latihan pengkodean dalam buku ini, Anda akan belajar bagaimana menerapkan konsep teoretis yang Anda pelajari dalam kursus Andrew Ng menggunakan Python

Kesimpulan

 
Langkah terakhir Anda adalah melakukan proyek ilmu data yang mencakup semua langkah di atas. Anda dapat menemukan kumpulan data yang Anda sukai dan kemudian mengajukan pertanyaan bisnis menarik yang dapat Anda jawab dengan menganalisisnya. Namun, jangan memilih kumpulan data umum seperti Titanic Machine Learning untuk proyek Anda. Anda dapat membaca "19 tempat untuk menemukan kumpulan data gratis untuk proyek ilmu data Anda" untuk menemukan kumpulan data

Cara lain adalah dengan menerapkan ilmu data ke bidang yang Anda sukai. Misalnya, jika Anda ingin memprediksi harga pasar saham maka Anda dapat mengambil data real-time dari Yahoo Finance dan menyimpannya dalam database SQL dan menggunakan Machine Learning untuk memprediksi harga saham.

Jika Anda ingin beralih ke ilmu data dari industri lain, saya sarankan Anda mengerjakan proyek yang memanfaatkan keahlian domain Anda. Saya telah memberikan penjelasan mendalam tentang pendekatan ini di posting blog saya sebelumnya "Panduan Langkah-demi-Langkah untuk Mentransisikan Karir Anda ke Ilmu Data – Bagian 1" dan "Panduan Langkah-demi-Langkah untuk Mentransisikan Karir Anda ke Data

Apakah Python mudah dipelajari untuk analisis data?

Mudah Dipelajari . Python menawarkan kepada pemrogram keuntungan menggunakan lebih sedikit baris kode untuk menyelesaikan tugas daripada yang dibutuhkan saat menggunakan bahasa yang lebih lama.

Bagaimana cara menjadi analis data Python?

Langkah 0. Cari tahu apa yang perlu Anda pelajari. .
Langkah 1. Dapatkan kenyamanan dengan Python. .
Langkah 2. Pelajari analisis data, manipulasi, dan visualisasi dengan panda. .
Langkah 3. Pelajari pembelajaran mesin dengan scikit-learn. .
Langkah 4. Pahami pembelajaran mesin secara lebih mendalam. .
Langkah 5. Teruslah belajar dan berlatih. .
Bergabunglah dengan Sekolah Data (gratis. )

Berapa lama waktu yang dibutuhkan untuk mempelajari Python untuk analisis data?

Secara umum, dibutuhkan sekitar dua hingga enam bulan untuk mempelajari dasar-dasar Python. Tapi Anda bisa belajar cukup banyak untuk menulis program singkat pertama Anda dalam hitungan menit. Mengembangkan penguasaan array yang luas dari perpustakaan Python bisa memakan waktu berbulan-bulan atau bertahun-tahun.

Bagaimana saya bisa mempelajari analisis data pada diri saya sendiri?

7 Kiat untuk Memandu Ilmu Data Belajar Mandiri .
Mulai dari Mana Saja—Tapi Mulailah. Untuk hal-hal penting yang perlu diingat saat Anda menavigasi pengalaman belajar Anda. .
Pilih Bahasa Pemrograman. .
Selami Teknis. .
Selami Topik Lebih Lanjut. .
Pelajari Alatnya. .
Tingkatkan Soft Skill Anda