Thursday 21 September 2017

Manipulieren Von Daten In Stata Forex


Im derzeit mit einem 10 Beispiel eines sehr großen Datensatz (10 Vars, über 300m Zeilen), die mehr als 200 GB Daten, wenn im. DTA-Format für den gesamten Datensatz gespeichert. Stata ist in der Lage, Operationen wie egen, Zusammenbruch, Merging, etc. in einer angemessenen Zeitspanne für die 10 Beispiel bei der Verwendung von Stata-MP auf einem UNIX-Server mit 50G RAM und mehrere Kerne behandeln. Nun möchte ich aber die ganze Stichprobe analysieren. Auch wenn ich eine Maschine, die genügend Arbeitsspeicher hat, um die Datenmenge zu halten, verwenden, ist es einfach, eine Variable zu generieren. (Ich glaube, die Hintergrundoperationen veranlassen Stata, in virtual mem zu laufen). Das Problem ist auch sehr parallelisierbar, dh die Zeilen im Dataset sind unabhängig voneinander, so dass ich genauso gut über den einen großen Datensatz wie denken kann 100 kleinere Datensätze. Hat jemand irgendwelche Vorschläge für die Prozessanalyse dieser Daten oder kann mir Feedback zu einigen Anregungen, die ich derzeit habe ich meistens verwenden StataSASMATLAB so vielleicht gibt es andere Ansätze, die ich einfach nicht bewusst bin. Hier sind einige meiner aktuellen Ideen: Teilen Sie die Datenmenge in kleinere Datasets und nutzen Sie informelle parallele Verarbeitung in Stata. Ich kann meine Reinigungsprozeßanalyse auf jeder Partition laufen lassen und dann die Resultate zusammenführen, ohne den Speicher alle Zwischenteile zu haben. Verwenden Sie SQL, um die Daten zu speichern und auch einige der Datenmanipulationen wie die Aggregation über bestimmte Werte auszuführen. Ein Problem hier ist, dass einige Aufgaben, die Stata ziemlich leicht verarbeiten kann, wie der Vergleich von Werten über Zeit wird nicht so gut funktionieren in SQL. Auch Im bereits in Performance-Probleme, wenn Sie einige Abfragen in SQL auf einer 30-Stichprobe der Daten. Aber vielleicht Im nicht Optimierung durch Indizierung richtig, etc. Auch Shard-Query scheint, wie es mit diesem helfen konnte, aber ich habe es noch nicht gründlich recherchiert. R sieht auch vielversprechend, aber Im nicht sicher, ob es das Problem der Arbeit mit dieser enormen Menge an Daten lösen würde. Da Sie mit Stata vertraut sind, gibt es eine gut dokumentierte FAQ über große Datensätze in Stata Umgang mit großen Datensätzen. Können Sie dieses hilfreich finden. Ich würde über Säulen reinigen, diese aufteilen, irgendwelche spezifischen Reinigungsroutinen ausführen und später wieder zusammenführen. Abhängig von Ihren Maschinenressourcen sollten Sie die einzelnen Spalten in mehreren temporären Dateien mit tempfile halten können. Wenn Sie nur die Variablen oder Spalten auswählen, die für Ihre Analyse am relevantesten sind, sollten Sie die Größe Ihres Sets deutlich reduzieren. Beantwortet November 22 13 am 7:10 Shouldn39t der Link, den Sie erwähnen Punkt zu dieser Seite. Ndash radek Nov 22 13 at 11:25 absolut richtig, dumm mich, kopieren Pasta mess up there ndash D3L 23 November 13 am 12:29 Danke D3L. Das Problem hier ist, dass ich einige Daten Manipulation Code, der Interaktion zwischen Spalten erfordert ausgeführt wird. Das Aufteilen der Zeilen ist eine mögliche Lösung, aber es ist ziemlich umständlich für die Aufgabe, die ich durchführe. Ndash user3018549 Nov 26 13 um 15: 40Manipulation von Handelsdaten zu Excel Ich versuche, die Handelsdaten zu manipulieren und zu analysieren, die ich in Excel exportiere (indem ich als Bericht speichern, kopieren und auf Excel einfügen). Zum Beispiel möchte ich gerne eine EA aber mit einem Korb von Paaren testen. Ich denke nicht, dass in MT4 möglich ist, aber ich möchte einen solchen Backtest simulieren, indem ich die Daten in Excel exportiere. Hat jemand irgendwelche toolsresources, zum dieses Prozesses zu beschleunigen, sah ich einige Sachen online aber war nicht sicher, wenn sie wert waren, zu tun. Ich würde mich über Feedback freuen. Vielen Dank.

No comments:

Post a Comment