23. Diagnostic Messages for this Task:
Error: java.lang.RuntimeException: Hive Runtime Error
while closing operators
SELECT TRANSFORM(*) USING 'python script.py’
FROM table;
25. Типичный алгоритм эксперимента
• Выгрузить сэмпл из Hive
• Сконвертировать в Pandas
• Поиграть с данными
• Понять, что чего-то не хватает
• Выгрузить другой сэмпл из Hive…
32. SPARK-15139
PySPark TreeEnsemble
missing methods
SPARK-18177
Add missing
‘subsamplingRate’
of pyspark GBTClassifier
SPARK-17025
Cannot persist PySpark ML
Pipeline model that
includes custom
Transformer
SPARK-15194
Add Python ML API for
MultivariateGaussian
35. Причина №1
• Vowpal Wabbit и XGBoost в старом пайплайне
• Новый код для напилки фич
36. Причина №2
SPARK-14374
PySpark ml GBTClassifier,
Regressor
support export/import
(Resolved: 15/Apr/16)
SPARK-13034
PySpark ml.classification support
export/import
(Resolved: 16/Mar/16)