Rumah pembangunan bahagian belakang Tutorial Python Penerokaan dan Visualisasi Set Data Filem

Penerokaan dan Visualisasi Set Data Filem

Sep 11, 2024 pm 04:15 PM

Pengenalan

Amalan menjadikan sempurna.

Sesuatu yang mempunyai banyak persamaan dengan menjadi saintis data. Teori hanyalah satu aspek persamaan; aspek yang paling penting ialah mempraktikkan teori. Saya akan berusaha untuk merekodkan keseluruhan proses hari ini untuk membangunkan projek batu penjuru saya, yang akan melibatkan kajian set data filem.

Ini adalah objektifnya:
Objektif:

  1. Muat turun set data filem daripada Kaggle atau dapatkan semula menggunakan API TMDb.
  2. Terokai pelbagai aspek seperti genre filem, rating, populariti pengarah dan trend tahun keluaran.
  3. Buat papan pemuka yang menggambarkan arah aliran ini dan secara pilihan mengesyorkan filem berdasarkan pilihan pengguna.

1. Pengumpulan Data
Saya memutuskan untuk menggunakan Kaggle untuk mencari set data saya. Adalah penting untuk mengingati pembolehubah penting yang anda inginkan untuk set data yang anda gunakan. Yang penting, set data saya harus termasuk yang berikut: arah aliran dalam tahun keluaran, populariti pengarah, penilaian dan genre filem. Akibatnya, saya mesti memastikan set data yang saya pilih mempunyai perkara berikut, sekurang-kurangnya.
Set data saya terletak di Kaggle dan saya akan memberikan pautan di bawah. Anda boleh mendapatkan versi CSV fail dengan memuat turun set data, menyahzipnya dan mengekstraknya. Anda boleh menyemaknya untuk memahami perkara yang telah anda miliki dan untuk benar-benar menyedari jenis cerapan yang anda harap dapat peroleh daripada data yang akan anda periksa.

2. Menghuraikan data

Pertama, kita mesti mengimport perpustakaan yang diperlukan dan memuatkan data yang diperlukan. Saya menggunakan bahasa pengaturcaraan Python dan Buku Nota Jupyter untuk projek saya supaya saya boleh menulis dan melihat kod saya dengan lebih cekap.
Anda akan mengimport perpustakaan yang akan kami gunakan dan memuatkan data seperti yang ditunjukkan di bawah.

Movie Dataset Exploration and Visualization

Kami kemudian akan menjalankan perintah berikut untuk mendapatkan butiran lanjut tentang set data kami.

data.head() # dispalys the first rows of the dataset.
data.tail() # displays the last rows of the dataset.
data.shape # Shows the total number of rows and columns.
len(data.columns)  # Shows the total number of columns.
data.columns # Describes different column names.
data.dtypes # Describes different data types.


Kini kami tahu kandungan set data dan cerapan yang kami harap dapat diekstrak selepas mendapat semua huraian yang kami perlukan. Contoh: Menggunakan set data saya, saya ingin menyiasat corak dalam populariti pengarah, pengedaran rating dan genre filem. Saya juga ingin mencadangkan filem bergantung pada pilihan pengguna, seperti pengarah dan genre pilihan.

3. Pembersihan Data

Fasa ini melibatkan mencari sebarang nilai nol dan mengalih keluarnya. Untuk meneruskan dengan visualisasi data, kami juga akan memeriksa set data kami untuk pendua dan mengalih keluar mana-mana yang kami temui. Untuk melakukan ini, kami akan menjalankan kod yang berikut:

1. data['show_id'].value_counts().sum() # Checks for the total number of rows in my dataset
2. data.isna().sum() # Checks for null values(I found null values in director, cast and country columns)
3. data[['director', 'cast', 'country']] = data[['director', 'cast', 'country']].replace(np.nan, "Unknown ") # Fill null values with unknown.

Kami kemudian akan menggugurkan baris dengan nilai yang tidak diketahui dan mengesahkan kami telah menggugurkan kesemuanya. Kami juga akan menyemak bilangan baris yang tinggal yang telah membersihkan data.

Movie Dataset Exploration and Visualization

Kod yang berikut mencari ciri unik dan pendua. Walaupun tiada pendua dalam set data saya, anda mungkin masih perlu menggunakannya sekiranya set data akan datang melakukannya.

data.duplicated().sum() # Checks for duplicates
data.nunique() # Checks for unique features
data.info # Confirms if nan values are present and also shows datatypes.

Jenis data tarikh/masa saya ialah objek dan saya ingin ia berada dalam format tarikh/masa yang betul jadi saya gunakan
data['date_added']=data['date_added'].astype('datetime64[ms]')untuk menukarnya kepada format yang betul.

4. Visualisasi Data

  • Data data saya mempunyai dua jenis pembolehubah iaitu rancangan TV dan Filem dalam jenis dan saya menggunakan graf bar untuk membentangkan data kategori dengan nilai yang diwakilinya.
    Movie Dataset Exploration and Visualization

  • Saya juga menggunakan carta pai untuk mewakili perkara yang sama seperti di atas. Kod yang digunakan adalah seperti berikut dan keputusan dijangka ditunjukkan di bawah.

## Pie chart display
plt.figure(figsize=(8, 8))  
data['type'].value_counts().plot(
    kind='pie', 
    autopct='%1.1f%%',  
    colors=['skyblue', 'lightgreen'], 
    startangle=90, 
    explode=(0.05, 0) 
)
plt.title('Distribution of Content Types (Movies vs. TV Shows)')
plt.ylabel('')
plt.show()

Movie Dataset Exploration and Visualization

  • Saya kemudian melakukan perbandingan dibentangkan menggunakan pd.crosstab(data.type, data.country) untuk membuat perbandingan dibentangkan jenis berdasarkan tarikh keluaran, negara dan faktor lain (anda boleh cuba menukar lajur dalam kod secara bebas). Di bawah ialah kod untuk digunakan dan perbandingan yang dijangkakan. Saya juga menyemak 20 negara pertama yang terkemuka dalam pengeluaran Rancangan Tv dan memvisualisasikannya dalam graf bar. Anda boleh menyalin kod dalam imej dan memastikan hasilnya hampir serupa dengan saya.

Movie Dataset Exploration and Visualization

Movie Dataset Exploration and Visualization

  • I then checked for the top 10 movie genre as shown below. You can also use the code to check for TV shows. Just substitute with proper variable names.

Movie Dataset Exploration and Visualization

  • I extracted months and years separately from the dates provided so that I could visualize some histogram plots over the years.

Movie Dataset Exploration and Visualization

Movie Dataset Exploration and Visualization

Movie Dataset Exploration and Visualization

  • Checked for the top 10 directors with the most movies and compared them using a bar graph.

Movie Dataset Exploration and Visualization

  • Checked for the cast with the highest rating and visualized them.

Movie Dataset Exploration and Visualization

5. Recommendation System

I then built a recommendation system that takes in genre or director's name as input and produces a list of movies as per the user's preference. If the input cannot be matched by the algorithm then the user is notified.

Movie Dataset Exploration and Visualization

The code for the above is as follows:

def recommend_movies(genre=None, director=None):
    recommendations = data
    if genre:
        recommendations = recommendations[recommendations['listed_in'].str.contains(genre, case=False, na=False)]
    if director:
        recommendations = recommendations[recommendations['director'].str.contains(director, case=False, na=False)]
    if not recommendations.empty:
        return recommendations[['title', 'director', 'listed_in', 'release_year', 'rating']].head(10)
    else:
        return "No movies found matching your preferences."
print("Welcome to the Movie Recommendation System!")
print("You can filter movies by Genre or Director (or both).")
user_genre = input("Enter your preferred genre (or press Enter to skip): ")
user_director = input("Enter your preferred director (or press Enter to skip): ")
recommendations = recommend_movies(genre=user_genre, director=user_director)
print("\nRecommended Movies:")
print(recommendations)

Conclusion

My goals were achieved, and I had a great time taking on this challenge since it helped me realize that, even though learning is a process, there are days when I succeed and fail. This was definitely a success. Here, we celebrate victories as well as defeats since, in the end, each teach us something. Do let me know if you attempt this.
Till next time!

Note!!
The code is in my GitHub:
https://github.com/MichelleNjeri-scientist/Movie-Dataset-Exploration-and-Visualization

The Kaggle dataset is:
https://www.kaggle.com/datasets/shivamb/netflix-shows

Atas ialah kandungan terperinci Penerokaan dan Visualisasi Set Data Filem. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT

Stock Market GPT

Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara memasang pakej dari fail keperluan.txt di python Cara memasang pakej dari fail keperluan.txt di python Sep 18, 2025 am 04:24 AM

Jalankan pipinstall-rrequirements.txt untuk memasang pakej ketergantungan. Adalah disyorkan untuk mencipta dan mengaktifkan persekitaran maya terlebih dahulu untuk mengelakkan konflik, memastikan bahawa laluan fail adalah betul dan PIP telah dikemas kini, dan menggunakan pilihan seperti-tidak-deps atau-pengguna untuk menyesuaikan tingkah laku pemasangan jika perlu.

Strategi penggabungan yang cekap bagi penyesuai dan model asas PEFT Lora Strategi penggabungan yang cekap bagi penyesuai dan model asas PEFT Lora Sep 19, 2025 pm 05:12 PM

Tutorial ini memperincikan bagaimana untuk menggabungkan penyesuai LORA PEFT dengan model asas untuk menghasilkan model yang sepenuhnya bebas. Artikel ini menunjukkan bahawa adalah salah untuk menggunakan transformer.automodel secara langsung untuk memuatkan penyesuai dan menggabungkan berat secara manual, dan menyediakan proses yang betul untuk menggunakan kaedah Merge_and_unload di perpustakaan PEFT. Di samping itu, tutorial juga menekankan pentingnya menangani segmen perkataan dan membincangkan isu dan penyelesaian keserasian versi PEFT.

Cara Mengendalikan Argumen Barisan Perintah di Python Cara Mengendalikan Argumen Barisan Perintah di Python Sep 21, 2025 am 03:49 AM

TheargParsemoduleisThereMendingWayOhandLecommand-lineargumentsinpython, menyediakan robrobustparsing, typevalidation, helpmessages, anderrorhandling; usesy.argvforsimplecasesrequiringminiminalsetup.

Cara Menguji Kod Python dengan Pytest Cara Menguji Kod Python dengan Pytest Sep 20, 2025 am 12:35 AM

Python adalah alat ujian yang mudah dan berkuasa di Python. Selepas pemasangan, fail ujian ditemui secara automatik mengikut peraturan penamaan. Tulis fungsi bermula dengan ujian untuk ujian pernyataan, gunakan @pytest.fixture untuk membuat data ujian yang boleh diguna semula, mengesahkan pengecualian melalui pytest.raises, menyokong menjalankan ujian tertentu dan pelbagai pilihan baris arahan, dan meningkatkan kecekapan ujian.

Masalah Ketepatan Nombor Titik Terapung di Python dan Skim Pengiraan Ketepatan Tinggi Masalah Ketepatan Nombor Titik Terapung di Python dan Skim Pengiraan Ketepatan Tinggi Sep 19, 2025 pm 05:57 PM

Artikel ini bertujuan untuk meneroka masalah biasa ketepatan pengiraan yang tidak mencukupi bagi nombor titik terapung di Python dan Numpy, dan menjelaskan bahawa punca akarnya terletak pada batasan perwakilan nombor terapung 64-bit standard. Untuk senario pengkomputeran yang memerlukan ketepatan yang lebih tinggi, artikel itu akan memperkenalkan dan membandingkan kaedah penggunaan, ciri-ciri dan senario yang berkenaan dengan perpustakaan matematik ketepatan tinggi seperti MPMATH, SYMPY dan GMPY untuk membantu pembaca memilih alat yang tepat untuk menyelesaikan keperluan ketepatan yang rumit.

Cara bekerja dengan fail pdf di python Cara bekerja dengan fail pdf di python Sep 20, 2025 am 04:44 AM

PYPDF2, PDFPlumber dan FPDF adalah perpustakaan teras untuk Python untuk memproses PDF. Gunakan pypdf2 untuk melakukan pengekstrakan teks, penggabungan, pemisahan dan penyulitan, seperti membaca halaman melalui pdfreader dan memanggil extract_text () untuk mendapatkan kandungan; PDFplumber lebih sesuai untuk mengekalkan pengekstrakan teks susun atur dan pengiktirafan jadual, dan menyokong extract_tables () untuk menangkap data jadual dengan tepat; FPDF (disyorkan FPDF2) digunakan untuk menjana PDF, dan dokumen dibina dan dikeluarkan melalui add_page (), set_font () dan sel (). Apabila menggabungkan PDF, kaedah tambahan PDFWriter () dapat mengintegrasikan pelbagai fail

Bagaimanakah anda boleh membuat pengurus konteks menggunakan penghias @ContextManager di Python? Bagaimanakah anda boleh membuat pengurus konteks menggunakan penghias @ContextManager di Python? Sep 20, 2025 am 04:50 AM

Import@contextManagerFromContextLibandDefineageneratorfunctionThatTyieldSexactlyonce, whereCodeBeforeyieldActSasenterandCodeAfteryield (PreferitlySinfinal) actsas __

Python Dapatkan Contoh Masa Semasa Python Dapatkan Contoh Masa Semasa Sep 15, 2025 am 02:32 AM

Mendapatkan masa semasa boleh dilaksanakan di Python melalui modul DateTime. 1. Gunakan datetime.now () untuk mendapatkan masa semasa tempatan, 2. Gunakan strftime ("%y-%m-%d%h:%m:%s") untuk memformat tahun, bulan, hari, jam, minit dan kedua, 3 menggunakan datetime.d. UTCNOW (), dan operasi harian dapat memenuhi keperluan dengan menggabungkan datetime.now () dengan rentetan yang diformat.

See all articles