Dengan perkembangan teknologi data besar, Hadoop telah beransur-ansur menjadi platform pemprosesan data yang penting. Ramai pembangun sedang mencari cara yang cekap untuk melaksanakan Hadoop, meneroka pelbagai bahasa dan rangka kerja dalam proses tersebut. Artikel ini akan memperkenalkan cara melaksanakan Hadoop menggunakan Golang.
Pengenalan kepada Hadoop
Hadoop ialah rangka kerja sumber terbuka berasaskan Java yang direka untuk menyelesaikan masalah pemprosesan set data yang besar. Ia termasuk dua komponen teras: Hadoop Distributed File System (HDFS) dan MapReduce. HDFS ialah sistem fail teragih berskala yang sangat tahan terhadap kesalahan dan boleh dipercayai. MapReduce ialah model pengaturcaraan untuk memproses data berskala besar yang boleh membahagikan set data besar kepada berbilang ketulan data kecil dan melaksanakannya pada berbilang nod pengkomputeran untuk meningkatkan kelajuan pemprosesan.
Mengapa menggunakan Golang?
Golang ialah bahasa pengaturcaraan yang pantas dan cekap dengan kesesuaian yang baik. Golang juga mempunyai beberapa perpustakaan dan alatan yang berkuasa terbina dalam, seperti goroutin dan saluran, untuk menyokong pengaturcaraan serentak. Ciri-ciri ini menjadikan Golang sebagai bahasa pengaturcaraan yang ideal untuk melaksanakan Hadoop.
Golang melaksanakan Hadoop
Sebelum memulakan Golang untuk melaksanakan Hadoop, anda perlu memahami konsep utama berikut tentang Hadoop.
Mapper: Seorang Mapper memetakan setiap blok data dalam data input kepada 0 atau lebih pasangan kunci/nilai, yang merupakan input kepada Reducer.
Penurun: Reducer mengumpul semua keluaran pasangan kunci/nilai oleh Mapper dan melaksanakan fungsi Reduce khusus untuk menggabungkan semua nilai berkaitan ke dalam satu atau lebih nilai output.
InputFormat: InputFormat menentukan format data input.
OutputFormat: OutputFormat menentukan format data output.
Sekarang, mari kita laksanakan Hadoop melalui langkah berikut:
Langkah 1: Sediakan Mapper dan Reducer
Mula-mula, anda perlu mencipta Mapper dan Reducer. Dalam contoh ini, kami akan mencipta aplikasi WordCount mudah:
taip MapperFunc func(input string, collector chan Pair)
type ReducerFunc func(key string, values chan string, collector chan Pair)
taip Pair struct {
Rentetan kunci
Rentetan nilai
}
func MapFile(fail *os.File , pemeta MapperFunc) (chan Pasangan, ralat) {
...
}
func Reduce(pasangan chan Pair, reducer ReducerFunc) {
. ..
}
Fungsi Mapper memetakan setiap blok data input ke dalam pasangan kunci/nilai perkataan dan pembilang:
func WordCountMapper(rentetan input, collector chan Pair ) {
perkataan := strings.Fields(input)
for _, word := julat perkataan {
collector <- Pair{word, "1"}
}
}
Fungsi Reducer menggabungkan dan mengira pasangan kunci/nilai:
func WordCountReducer(rentetan kunci, rentetan nilai chan, pengumpul chan Pasangkan ) {
kira := 0
untuk nilai julat {
kira++
}
pengumpul <- Pasangkan {key, strconv.Itoa(count)}
}
Langkah 2: Tetapkan InputFormat
Seterusnya, tetapkan format fail input. Dalam contoh ini kita akan menggunakan format fail teks ringkas:
taip TextInputFormat struct{}
func (ifmt TextInputFormat) Slice(fail *os.File, saiz int64) ([] io. Pembaca, ralat) {
...
}
func (ifmt TextInputFormat) Baca(pembaca io.Reader) (rentetan, ralat) {
...
}
func (ifmt TextInputFormat) GetSplits(fail *os.Fail, saiz int64) ([]InputSplit, ralat) {
.
}
Kaedah Slice() membahagikan fail input kepada beberapa bahagian:
func (ifmt TextInputFormat) Slice(fail *os.File, saiz int64) ( [] io.Reader, ralat) {
var readers []io.Reader
start := int64(0)
end := int64(0)
untuk hujung < saiz {
buf := make([]bait, 1024*1024)
n, err := file.Read(buf)
if err != nil && err != io.EOF {
kembali nol, err
}
end += int64(n)
pembaca = append(pembaca, bait.NewReader(buf[:n]))
}
kembali pembaca, tiada
}
Kaedah Baca( ) membaca setiap blok data menjadi rentetan:
func (ifmt TextInputFormat) Baca(pembaca io.Reader) (rentetan, ralat) {
buf := make([] bait, 1024)
rentetan keluaran var
untuk {
n, err := reader.Read(buf)
if err == io
pecahkan} lain jika err != nil {kembali "", err}output += string(buf[: n])}output pulangan, tiada}Kaedah GetSplits() menentukan kedudukan dan panjang setiap blok :func (ifmt TextInputFormat) GetSplits(fail *os.File, saiz int64) ([]InputSplit, ralat) {splits := make([]InputSplit, 0)var mulakan int64 = 0var end int64 = 0untuk hujung < saiz {blockSize := int64(1024 * 1024)jika saiz -end < blockSize {blockSize = size - end}split := InputSplit{file.Name(), start, blockSize} pecah = tambah(pecah, belah)mula += Saiz blokakhir += Saiz blok}pecah balik, tiada}Langkah 3: Tetapkan OutputFormatAkhir sekali, tetapkan format fail output. Dalam contoh ini kita akan menggunakan format fail teks ringkas: taip TextOutputFormat struct {Path string}func (ofmt TextOutputFormat) Write( pasangan Pasangan) ralat {...}
Kaedah
Write() menulis pasangan kunci/nilai pada fail output:
ralat Func (ofmt TextOutputFormat) Write(Pair Pair) {
f, err := os.OpenFile ( ofmt.Path, os.O_APPEND|os.O_CREATE|os.O_WRONLY, 0644)
if err != nil {
return err
}
tunda f.Close()
_, err = f.WriteString(fmt.Sprintf("%st%sn", pair.Key, pair.Value))
if err ! = nil {
return err
}
return nol
}
Langkah 4: Jalankan aplikasi
Kini, semua komponen yang diperlukan sedia untuk menjalankan aplikasi:
func main() {
inputFile := "/path/to/input/file"
outputFile := "/path/to/output/file"
inputFormat := TextInputFormat{}
outputFormat := TextOutputFormat{outputFile}
pemeta := WordCountMapper
reducer := WordCountReducer
job := NewJob(inputFile, inputFormat, outputFile, outputFormat, mapper, reducer)
job.Run()
}
Ringkasan
Melaksanakan Hadoop menggunakan Golang ialah tugas yang menarik dan mencabar, dan dengan sifat keselarasan yang cekap dan sokongan perpustakaan yang berkuasa, aplikasi Hadoop boleh dipermudahkan pembangunan Program. Artikel ini memberikan contoh mudah, tetapi ini hanyalah permulaan, anda boleh terus mendalami topik ini dan mencuba aplikasi dan ciri yang berbeza.
Atas ialah kandungan terperinci Bagaimana untuk melaksanakan hadoop dalam golang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!