Бөлүнүү маалыматтарды иштетүүнү тездетүүчү киргизүү/чыгаруу операцияларынын көлөмүн олуттуу түрдө азайтууга жардам берет Spark дайындардын локализациясынын идеясына негизделген. Бул иштетүү үчүн жумушчу түйүндөр аларга жакыныраак маалыматтарды колдонорун көрсөтүп турат. Натыйжада, бөлүү тармак киргизүү/чыгын азайтат жана маалыматтарды иштетүү ылдамдайт.
Spark'да бөлүмдү качан колдонушум керек?
Spark/PySpark бөлүү - бул берилиштерди бир нече бөлүккө бөлүүнүн жолу, андыктан бир нече бөлүмдө параллелдүү түрдө трансформацияларды аткара аласыз, бул ишти тезирээк бүтүрүүгө мүмкүндүк берет. Ошондой эле ылдыйкы системалар тарабынан тезирээк окуу үчүн бөлүштүрүлгөн дайындарды файл тутумуна (бир нече суб-каталогдор) жаза аласыз.
Дайындарды эмне үчүн бөлүшүбүз керек?
Көптөгөн масштабдуу чечимдерде маалыматтар өзүнчө башкарылуучу жана жеткиликтүү болгон бөлүмдөргө бөлүнөт. Бөлүнүү масштабдуулукту жакшыртат, талаш-тартыштарды азайтат жана майнаптуулукту оптималдаштырат … Бул макалада бөлүү термини маалыматтарды өзүнчө маалымат кампаларына физикалык түрдө бөлүү процессин билдирет.
Менде канча бөлүм болушу керек?
Спарктын жалпы сунушу – колдонмо үчүн кластердеги өзөктөрдүн санына жараша 4x бөлүктөргө ээ болушу керек, ал эми жогорку чек үчүн - тапшырманы аткаруу үчүн 100 мс+ убакыт талап кылынат.
Spark аралаштыруу бөлүмдөрү деген эмне?
Аралаш бөлүктөрү - бул spark dataframe ичиндеги бөлүмдөр, алар топтоштурулган же кошулуу операциясы аркылуу түзүлгөн. Бул dataframe бөлүмдөрүнүн саны баштапкы dataframe бөлүмдөрүнөн айырмаланат. … Бул dataframeде эки бөлүм бар экенин көрсөтүп турат.