Tuesday, 21 February 2017

Wie Zu Schaffen Ein Panel Daten In Stata Forex

Für schnelle Fragen email dataprinceton. edu. Keine appts. Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone geöffnet ist, keine Termine erforderlich, um die Labor-Computer für Ihre eigene Analyse zu verwenden. Panel-Daten Einleitung Panel-Daten, auch Longitudinal-Daten oder Querschnitts-Zeitreihendaten genannt, sind Daten, bei denen mehrere Fälle (Personen, Firmen, Länder usw.) zu zwei oder mehr Zeitpunkten beobachtet wurden. Ein Beispiel dafür ist die National Longitudinal Survey of Youth, bei der eine national repräsentative Stichprobe von Jugendlichen mehrmals über mehrere Jahre hinweg befragt wurde. Es gibt zwei Arten von Informationen in Querschnitts-Zeitreihen-Daten: die Querschnitts-Informationen, die in den Unterschieden zwischen den Subjekten reflektiert werden, und die Zeitreihe oder innerhalb des Subjekts Informationen reflektiert in den Veränderungen innerhalb der Themen im Laufe der Zeit. Panel Daten Regression Techniken können Sie die Vorteile dieser verschiedenen Arten von Informationen zu nutzen. Während es möglich ist, gewöhnliche multiple Regressionstechniken auf Paneldaten zu verwenden, sind sie möglicherweise nicht optimal. Die Schätzungen der Koeffizienten, die aus der Regression abgeleitet werden, können einer verzögerten Variablenvorspannung unterworfen werden - ein Problem, das entsteht, wenn es eine unbekannte Variable oder Variablen gibt, die nicht für die abhängige Variable beeinflussbar sind. Mit Panel-Daten ist es möglich, für einige Arten von weggelassenen Variablen auch ohne Beobachtung zu kontrollieren, indem Änderungen der abhängigen Variablen über die Zeit beobachtet werden. Diese Steuerung für ausgelassene Variablen, die sich zwischen den Fällen unterscheiden, aber über die Zeit konstant sind. Es ist auch möglich, Panel-Daten zu verwenden, um weggelassene Variablen zu steuern, die über die Zeit variieren, aber zwischen den Fällen konstant sind. Verwenden von Panel-Daten in Stata Ein Panel-Dataset sollte Daten über n Fälle, über t Zeitperioden, für insgesamt n mal t Beobachtungen haben. Daten wie diese sollen in langer Form sein. In einigen Fällen können Ihre Daten in die so genannte breite Form kommen, mit nur einer Beobachtung pro Fall und Variablen für jeden unterschiedlichen Wert zu jedem anderen Zeitraum. Um solche Daten in Stata mit Hilfe von Befehlen für die Paneldatenanalyse zu analysieren, müssen Sie sie zunächst in Langform umwandeln. Dies kann mit dem Befehl Statas reshape durchgeführt werden. Für Hilfe bei der Verwendung von Reshape, siehe Statas Online-Hilfe oder diese Webseite. Stata bietet eine Reihe von Werkzeugen für die Analyse von Paneldaten. Die Befehle beginnen mit dem Präfix xt und umfassen xtreg-, xtprobit-, xtsum - und xttab-Panel-Datenversionen der bekannten Reg-, Probit-, Summe - und Tab-Befehle. Um diese Befehle verwenden zu können, müssen Sie zunächst mitteilen, dass Ihr Datenbestand die Paneldaten ist. Sie benötigen eine Variable, die das case-Element Ihres Panels identifiziert (z. B. eine Länder - oder Personen-ID) und auch eine Zeitvariable, die sich im Stata-Datumsformat befindet. Informationen über Variablenformate für Statas-Datum finden Sie auf der Seite Zeitreihendaten in der Stata-Seite. Sortieren Sie Ihre Daten nach der Panelvariablen und dann nach der Datumsvariablen innerhalb der Panelvariablen. Dann müssen Sie den Befehl tsset ausgeben, um die Panel - und Datumsvariablen zu identifizieren. Wenn Ihre Panelvariable panelvar heißt und Ihre Datumsvariable datevar heißt, sind folgende Befehle erforderlich: Wenn Sie Menüs verwenden möchten, verwenden Sie den Befehl unter Statistics Time Series Setup und Utilities Declare Data to Time Series. Fixed-, Between - und Random-Effects-Modelle Fixed Effects Regression Das Fixed-Effects-Regression ist das Modell, das verwendet werden soll, wenn Sie Variablen auslassen wollen, die sich zwischen den Fällen unterscheiden, aber über die Zeit konstant sind. Es erlaubt Ihnen, die Änderungen in den Variablen über die Zeit zu verwenden, um die Auswirkungen der unabhängigen Variablen auf Ihre abhängige Variable abzuschätzen und ist die wichtigste Technik, die für die Analyse von Paneldaten verwendet wird. Der Befehl für eine lineare Regression auf Paneldaten mit festen Effekten in Stata ist xtreg mit der Option fe, wie folgt verwendet: Wenn Sie es vorziehen, die Menüs zu verwenden, ist der Befehl unter Statistik Querschnittszeitreihen Lineare Modelle Lineare Regression. Dies ist gleichbedeutend mit der Generierung von Dummy-Variablen für jeden Ihrer Fälle und einschließlich sie in einer Standard-linearen Regression, um für diese festen Fall-Effekte zu steuern. Es funktioniert am besten, wenn Sie relativ weniger Fälle und mehr Zeiträume haben, da jede Dummy-Variable entfernt einen Freiheitsgrad von Ihrem Modell. Zwischen Effekte Regression mit zwischen Effekten ist das Modell, das verwendet werden soll, wenn Sie für weggelassene Variablen steuern möchten, die sich im Laufe der Zeit ändern, aber zwischen den Fällen konstant sind. Es erlaubt Ihnen, die Variation zwischen den Fällen zu verwenden, um die Wirkung der weggelassenen unabhängigen Variablen auf Ihre abhängige Variable abzuschätzen. Der Befehl für eine lineare Regression auf Paneldaten mit zwischen den Effekten in Stata ist xtreg mit der Option be. Das Ausführen von xtreg mit zwischen den Effekten ist äquivalent dazu, den Mittelwert jeder Variablen für jeden Fall über die Zeit zu nehmen und eine Regression auf dem zusammengefassten Dataset von Mitteln auszuführen. Da dies zu einem Informationsverlust führt, werden die Effekte in der Praxis nicht viel genutzt. Forscher, die sich auf Zeit-Effekte ohne Berücksichtigung von Panel-Effekte im Allgemeinen wird eine Reihe von Zeit-Dummy-Variablen, die die gleiche wie Laufzeitfixe Effekte ist. Der zwischen Effekte-Schätzer ist hauptsächlich wichtig, weil er verwendet wird, um die Zufallseffekte Schätzer zu produzieren. Zufällige Effekte Wenn Sie Grund zu der Annahme haben, dass einige ausgelassene Variablen über die Zeit konstant sein können, aber zwischen den Fällen variieren und andere zwischen den Fällen festgelegt werden können, sich aber über die Zeit unterscheiden, können Sie beide Typen mit zufälligen Effekten einbeziehen. Statas Zufallseffekte Schätzer ist ein gewichteter Durchschnitt der festen und zwischen den Effekten. Der Befehl für eine lineare Regression auf Paneldaten mit zufälligen Effekten in Stata ist xtreg mit der Option re. Auswahl zwischen festen und zufälligen Effekten Die allgemein akzeptierte Methode, zwischen festen und zufälligen Effekten zu wählen, führt einen Hausman-Test durch. Statistisch sind feste Effekte immer eine vernünftige Sache mit Panel-Daten zu tun (sie immer konsistente Ergebnisse), aber sie sind möglicherweise nicht das effizienteste Modell zu laufen. Zufällige Effekte geben Ihnen bessere P-Werte, da sie ein effizienter Schätzer sind, also sollten Sie zufällige Effekte ausführen, wenn es statistisch gerechtfertigt ist, dies zu tun. Der Hausman-Test überprüft ein effizienteres Modell gegen ein weniger effizientes, aber konsistentes Modell, um sicherzustellen, dass das effizientere Modell auch konsistente Ergebnisse liefert. Um einen Hausman-Test durchführen zu können, müssen Sie zuerst das Fixed-Effect-Modell abschätzen und die Koeffizienten so abgleichen, dass Sie sie mit den Ergebnissen des nächsten Modells vergleichen, das Zufallseffektmodell abschätzen und dann die Ergebnisse ausführen können Vergleich. Der Hausman-Test prüft die Nullhypothese, dass die Koeffizienten, die durch den effizienten Zufallsschätzer abgeschätzt werden, die gleichen sind wie die, die durch den konsistenten Schätzer für feste Effekte geschätzt werden. Wenn sie sind (unbedeutender P-Wert, Probchi2 größer als .05), dann ist es sicher, Zufallseffekte zu verwenden. Wenn Sie einen signifikanten P-Wert erhalten, sollten Sie jedoch feste Effekte verwenden. Weiterlesen zwischen Schätzern von Stata Eine Diskussion, die den Schätzer mit dem Zufallsschätzer vergleicht. Testen auf Heteroskedastizität und Autokorrelation auf Plattenebene von Stata Enthält einen benutzerdefinierten Befehl, der einen einfachen Test für die serielle Korrelation durchführt. Einführung in die Ökonometrie von James H. Stock und Mark W. Watson, 2003 Dieser Text enthält eine gute Diskussion der Theorie hinter der Panel-Datenanalyse und wurde bei der Vorbereitung dieser Seite verwendet. Siehe insbesondere Kapitel 8, Regression mit Paneldaten. Kopie 2007 Die Treuhänder der Princeton University. Alle Rechte vorbehalten. Dataprinceton. edu ANMERKUNG: Informationen sind für Princeton University. Fühlen Sie sich frei, die Dokumentation zu verwenden, aber wir können nicht beantworten Fragen außerhalb von Princeton Diese Seite zuletzt aktualisiert auf: Stata: Datenanalyse und statistische Software Nicholas J. Cox, Durham Universität, UK Scott Merryman, USDA Ich habe Panel-Daten. Ein Panel (Land, Firma, Person, was auch immer) dient als Referenztafel. Wie kann ich Werte für andere Bedienfelder zu dieser Referenztafel, sagen wir, als Verhältnis (dieser panelrsquos-Wert für diese Zeit) beziehen (Referenz-Panelrsquos-Wert für diese Zeit) Oder wie arbeite ich mit einer Zeit (1700, 1952, was auch immer) Als Referenzzeit 1. Identifizieren Sie die Variable von Interesse und die Referenz Um Ideen zu fixieren, werden wir mit einem Panel-Dataset arbeiten, das von der Stata-Website heruntergeladen werden kann:. Verwendung stata-pressdatar14grunfeld, clear Dieses Datensatz enthält Wirtschaftsdaten über 10 anonyme Unternehmen für 20 Jahre, 1935ndash54. Die Panelstruktur wurde mit xtset angegeben. Die Panel-Variable ist Unternehmen. Und die Zeitvariable ist Jahr. Formally, Einstellung der Panel-Struktur mit xtset ist nicht wesentlich für das, was folgt, aber es ist eine gute Idee trotzdem. Die mit 1 bezeichnete Firma hat während dieser Periode den höchsten Wert, daher werden wir diese als Referenzfirma verwenden, um die Technik zu veranschaulichen. Später zeigen wir, wie die gleiche Stata-Logik verwendet werden kann, wenn Sie mit einer Referenzzeit arbeiten wollen. Das Problem ist wesentlich, aber die Programmlogik ist identisch. Die Auswahl der Unternehmen 1rsquos Werte ist einfach:. Generieren mvalueref mvalue, wenn Unternehmen 1 Die natürliche Konsequenz dieses Befehls ist es, fehlende Werte in die Beobachtungen von mvalueref für andere Unternehmen zu setzen. 2. Verbreiten Sie die Referencerquos Werte auf andere Beobachtungen Der nächste Schritt, und die, die auf den ersten Blick erscheint knifflig, ist es, diese Werte an andere Unternehmen zu verbreiten. Stellen wir uns die Resultate einer Art zuerst über Jahr und dann innerhalb Jahr auf mvalueref vor. Zum Beispiel ist der erste Wert des Jahres 1935, und innerhalb aller Werte für 1935 würden die 10 Unternehmen nach mvalueref sortiert werden. Nun, höchstens ein Wert für mvalueref für 1935 wird nicht gemieden werden, wird der Wert für Unternehmen 1 alle anderen fehlen, wie eben erwähnt. Das Ergebnis einer Sortierung auf numerischen Werten ist immer, fehlende Werte zuletzt, nach irgendwelchen nicht-ignorierenden Werten zu platzieren. Kurz gesagt, für jedes Jahr. Wird jeder nicht verpassende Wert immer als der erste Wert beendet. Wir können diese Tatsache ausnutzen, um die Werte der Referenzplattenrsquos auf andere Felder zu verteilen:. Bysort Jahr (mvalueref): ersetzen mvalueref mvalueref1 Diese Anweisung setzt eine Menge auf einmal, die wie folgt entpackt werden: sortieren auf Jahr und dann innerhalb Jahr auf mvalueref Für jeden Datenblock für jedes Jahr. Ersetzen Sie mvalueref mit dem ersten Wert, den es in diesem Block nimmt. (Unter by varlist :. subscripts wie 1 werden in jedem Block interpretiert, nicht mit Bezug auf den gesamten Dataset.) Für mehr zu bysort. Siehe die Handbücher oder das Tutorial bei Cox (2002). 3. Berechnen Sie die gewünschte Menge Nun können wir berechnen, was wir wollen, sagen wir. Erzeugen Sie mvaluesc mvaluemvalueref oder den Logarithmus davon oder eine Differenz. 4. Was könnte schief gehen mit diesem Ansatz Diese Beispiel-Dataset scheint in ausgezeichnetem Zustand sein. Im Datenbestand sind keine fehlenden Werte enthalten und mit allen Firmen vertreten, die für alle Jahre vertreten sind. Zwei Dinge gehen oft falsch mit anderen Panel-Datasets. Zunächst wird angenommen, dass der Wert für 1935 und für die Firma 1 tatsächlich fehlte. Dann würden alle 10 Werte von mvalueref für 1935 fehlen geblieben sein und würden nach der Sortierung und dann dem Ersetzen bleiben. Ein fehlender Wert würde nach 1935 sortiert werden (es spielt keine Rolle, welche, da sie alle identisch sind), und ein fehlendes würde durch ein fehlendes überschrieben werden. Das scheint fair. Zweitens, angenommen, mvalue für 1935 und Unternehmen 1 wurden in der Tat aus dem Datensatz weggelassen. Dann würden alle neun Werte von mvalueref für Unternehmen 2ndash10 geboren wurden fehlende für 1935, und das Ergebnis ähneln würde, dass in der vorherigen Situation, wenn auch aus einem anderen Grund. Somit haben die beiden Hauptprobleme vernünftige Konsequenzen und beeinträchtigen die Beobachtungen nicht mit Ausnahme des Jahres, für das sie gelten. 5. Wie setzen wir diese Methode auf eine Referenzzeit um? Die gleiche Stata-Logik gilt, wenn wir mit einer Referenzzeit arbeiten wollen. Für diesen Datensatz wollen wir Werte mit denen im Jahr 1950 vergleichen. Verwenden Sie zuerst die Werte für 1950 nur:. Generieren Sie mvalueref mvalue, wenn Jahr 1950 Dann verbreiten Sie diesen Wert zu den anderen Beobachtungen in jedem Panel:. Bysort Unternehmen (mvalueref): ersetzen mvalueref mvalueref1 Sie könnten versucht werden, etwas zu tun:. Dieser Ansatz hängt davon ab, dass es sich bei dem fraglichen Datensatz um ein ausgewogenes Panel handelt, in dem jedes Unternehmen für alle Jahre von 1935 bis 1954 beobachtet wird Für 1950 ist der 16. in jedem Panel. Die Lösung funktioniert für dieses Beispiel, und ähnliche Lösungen funktionieren, wenn Sie ausgewogene Panels haben, aber es ist nicht guter Stil. Zuerst kann in einer Protokolldatei der obige Code nicht transparent sein, es sei denn, Sie fügen einen Kommentar hinzu, da die Implikation der Verwendung von Beobachtung 16 bei einer späteren Lesung möglicherweise nicht offensichtlich ist. Zweitens und noch wichtiger ist, dass diese Lösung nicht auf unausgeglichene Platten übertragen wird. 6. Ein egen-Ansatz Hier ist ein anderer Weg, es zu tun. In gewisser Weise ist es schlechter Technik, aber auf andere Weise zeigt es mehr von der Macht der Stata. . Bysort Unternehmen: egen mvalueref total (cond (Jahr 1950, mvalue.)) Der Ausdruck cond (Jahr 1950, mvalue.) Verwendet den Wert für mvalue, wenn Jahr 1950 und fehlt anders. Wenn Sie durch egen, total () unter der Ägide des Panels laufen:. Der Wert für 1950 wird auf jede Beobachtung in jedem Panel angewendet. Egen, total () ignoriert Missings in seiner Berechnung, so dass die Summe ist identisch mit dem Wert für 1950. Noch einmal denken, was schief gehen könnte. Wenn mvalue für 1950 in irgendeinem Panel fehlte, dann würde die Gesamtmenge für dieses Panel auch fehlen. Wenn es keine Beobachtung für 1950 in irgendeinem Panel gab, dann würde die Summe aller anderen Werte in diesem Panel berechnet werden. In beiden Fällen würde fehlende als Panel Ergebnis zurückgegeben werden, wie fair wäre. Dieser Ansatz ist nicht gleichbedeutend mit. Bysort Unternehmen: egen mvalueref gesamt (mvalue), wenn Jahr 1950, weil die verpasst fast überall und ist absolut kein Gewinn (und in der Tat deutlich weniger effizient als). Gen mvalueref mvalue, wenn Jahr 1950 Weitere Beispiele für die Verwendung von egen in Panel-Problemen sind in anderen FAQs: In verschiedenen Versionen vor Stata 9, egen, gesamt () genannt wurde egen, sum (). Wenn Sie mehr über cond () lernen möchten. Siehe das Tutorial von Kantor und Cox (2005). Für eine allgemeinere Diskussion der Vergleiche innerhalb von Datensätzen, siehe Cox (2011). Referenzen Cox, N. J. 2002. Sprechende Stata: Wie man Schritt um Schritt Schritt: Schritt. Stata Journal 2: 86ndash102. Kantor, D. und N. J.Cox. 2005. Abhängig von den Bedingungen: Ein Tutorial über die Funktion cond (). Stata Journal 5: 413ndash420. Cox, N. J. 2011. Sprechende Stata: Verglichen mit. Stata Journal 11: 305ndash314.


No comments:

Post a Comment